NTTの大規模通信障害について自分なりに考察をしてみた
NTTの通信障害 Yahooや各社のニュースの記事を見ていると
・海外のメーカー
・2018年から順次新しくなった機器
・従来の機器の後継機
とのことでしたので、ネクスト光が提供開始当時の日経BPにはアラクサラとCiscoの写真が加入者装置として掲載されていたので、
アラクサラは日本企業なので海外のメーカーというのは「Cisco」と思われる
フレッツ光クロス提供開始が2020/4/1なので、クロス用に新しくした後継機なのだろうと思われる
(サービス提供開始2年前から順次新しくすることなど、商用サービスではよくあることだし。また、トライアル期間等もあるので2年でもあり得ると思われる)
・加入者収容、ルーティング処理、パケット転送、中継接続など4つの機能を有しており
という表現がYahooの記事にあったが
加入者収容=ユーザー収容している下部向けI/F
ルーティング処理=RP部 ルーティングプロセッサー
パケット転送=FP部、Cisco Flow Processor
中継接続=上部向けI/F アップリンクのこと
だろうと推察できる
・特定の配信サーバー
よくNTTのHPにNGN網直結でインターネットとは異なる位置に「配信サーバ」というクラウドが存在している
これらはユニキャストもしくはマルチキャストのNGN網向けIPv6用配信サーバである(ひかりTVとかがそれに該当する)
また、インターネットからだとすると障害発生してから東は1時間、西でも3時間で特定して止めるのは早すぎる気がする
そのため、NGN網直結の配信サーバが元だと思われる
NGN網直結であれば外部からの攻撃というわけではなくほとんど内部扱いに近いため、これであれば攻撃の可能性はほとんどないという判断も理解できる
・障害発生が同時多発的
同時多発で上記の構成を考えるとマルチキャストの可能性が高い
・ルータというのはサーバと異なり、基本的にはパケットの中継であり処理はあまりしていない(一部例外あり)
仮にロングパケットだったとしてもフラグメント処理をされて転送されるだけである
それがユニキャストであれば、フラグメント化されたパケットはただ単に中継するだけで影響はなかったであろう
・NGN網内のMTUはPPPoEのMTUが1454であることから1500であると逆算できる
https://www.infraexpert.com/info/6adsl.htm 参照
そのため、ロングパケットと一般的に表現されるものでもMAX1500である
また、ipv6のユニキャストであれば通信する対象とエンドエンドでMTUを自動調整するため、これもフラグメントするとは考えにくい
以上のインターネット上の各社の記事から推察するに下記のような推論がでてくる
・NGN網直結の配信サーバよりロングパケットのマルチキャストが転送されてきた
・ベストエフォードのマルチキャストはSTBよりMLDv2というコントロールパケット(制御パケット)を
送って、そのチャンネルのマルチキャストを受信するかを選ぶことになる
つまりルータの原則パケット中継の一部例外になるルータに転送するパケットを取捨選択処理をさせている
NTTもMLDv2のザッピング検証くらいはユーザーから通信のため当然行っているものと思われる
しかし、今回はロングパケット
つまり、フラグメントされてしまっているパケットである
マルチキャストはユニキャストとは異なりパケットは常に次にルータ宛てになっている
例えば、ユニキャストは自宅のPCのIPアドレスからどこかのWEBサーバのIPアドレス宛になっていたら
途中のルータは宛先を見て左から右へ転送するだけである(一部攻撃方法で処理されそうなヘッダーを異常値することはあるが
それでも破棄される程度である)
しかし、マルチキャストは網内のようなルータ同士であればIPv6はPIMというのを用いてお互い受け取りたいチャンネルを
指定したりするし動作的にはL2に近いものがある
ここで例えば、MLDv2でAチャンネル見ていた人がBチャンネルに変えた場合、
通常は加入者装置にMLDv2が着て、加入者装置内のmroute(マルチキャストルーティングテーブル)が変更されると同時に
PIM-LeaveとJoinで上位ルータにほしいマルチキャストのチャンネルを変える
しかし、ここでフラグメントパケットの場合で先頭のフラグメントがmrouteが切り替わって破棄されてしまったときに
後続のみのマルチキャストのフラグメントパケットが来たら、結合するための先頭のフラグメントパケットもないため
通常であれば破棄処理になるのだが、そこで例外処理がうまくいかずに転送部がリブートしてしまったのではないだろうか?
転送部は2重化されているという記載も記事にはあったが、予備系に切り替わっても同じことが起き、2重化装置が
短時間に両方リブートしてしまえば両系断となり通信NGとなる
ただ、2018年から使っていた装置が、突然今更なるとは考えにくい
配信サーバがこの時期に急にロングパケットに設定変更もしくは設定ミスをしたのか?
それとも加入者装置のOSをバージョンアップなどしてデグレしてしまった可能性が高いような気がする
今回の件、逆に言えば従来からあるCiscoの機器やアラクサラの機器では発生しないということは
明らかにCiscoの新機種のバグといえる
せっかくの日本を代表する企業なのでなるべく国内メーカーを使って国内を盛り上げてほしい
また固定回線でも通信断になることはあり、うちも以前HGWがぶっ壊れて(いきなり電源がきれた)
交換に来てもらうまで1営業日かかりその間、ポケットWIFIで凌いだ
いまは安いMVNOを契約して予備回線としてルータにつないでメインの光ファイバーが疎通NGになったら
切り替わるようにしている
こういった自衛手段についても、携帯の方はデュアルSIMやローミングが検討されているが、
固定回線でもローミングとかできないものだろうか・・・・・