元バンドマンITエンジニアの語り場

技術とか趣味とか日々の至福と鬱憤とか

2021年9月2日に東京リージョンのDirectConnectで発生した大規模障害は多くの利用者が影響を受けたため記憶に新しく、高可用性が要求されるネットワークにおいてのDirectConnect構成について考えさせられる出来事でした。

 

どんな障害だった?

東京リージョンの全AZが影響を受けるDirectConnect障害だったので、東京リージョン内でマルチAZ構成にしており、かつDirectConnectロケーションをマルチ(CC1とOS1など)にしていても障害を回避することができませんでした。んな無茶な。。

AWSからの暫定策として、Site-to-Site VPNを用いた迂回路があれば当該障害による通信断を回避できるというものがあったので、ミッションクリティカルでないネットワークでは急遽この方法で迂回路を設けた利用者も少なくなかったのではないかと思います。

しかし、Site-to-Site VPNはインターネットVPNなので、通信速度が安定しなかったり、品質にばらつきがあったりと、安定性を求められるネットワークではいまいちな解となってしまいました。

より高品質を要求されるネットワークにおいて、DirectConnectのみと使いつつ、当該障害を回避できる構成として、AWSからも推奨されているのが「マルチリージョンTGW+DXGW構成」です。コストとトレードオフとなりますがオンプレとAWS間で超重要通信が行われる場合は、検討の価値がある構成です。

 

マルチリージョンTGW+DXGW構成

マルチリージョンTGW+DXGW構成では、東京リージョンと大阪リージョンそれぞれでトランジットゲートウェイ(TGW)を利用し、DirectConnectとの接続はDirectConnectGateway(DXGW)を用いるといった構成になります。ちなみに、東京リージョンと大阪リージョン間の接続は、TGWのInter-Region Peeringを利用する形となります。

構成イメージは以下。



 

21年9月の障害は東京リージョンに接続されているDirectConnect全域が障害箇所となったので、上記構成を取ることでDXGWから大阪リージョンのTGW→Inter-Region Peering経由で東京リージョンのTGWへ迂回することができる。

ただし、この構成を採用する場合、障害発生時に次のような手動のオペレーションが必要なります。

・オンプレから東京リージョンへの接続経路変更

東京リージョンのTGWから東京リージョンVPCのCIDRのアドバタイズを停止し、大阪リージョンのTGWから東京リージョンVPCのCIDRをアドバタイズする。こうすることでオンプレからAWS方向への通信経路を、オンプレ→DXGW→大阪リージョンTGW→東京リージョンTGW→東京リージョンVPCとすることができる。

・東京リージョンからオンプレへの接続経路変更

東京リージョンからオンプレ方向の通信が、東京リージョンVPC→東京リージョンTGW→大阪リージョンVPC→DXGW→オンプレとなるように、東京リージョンTGWのルートテーブルの設定変更を行う。具体的にはオンプレCIDR宛の通信のターゲットを大阪リージョンTGWに変更する。

 

このような迂回路の場合は、大阪を経由する分レイテンシーが発生してしまうのは致し方ないこと。。とはいえ、DirectConnect障害を考慮した冗長構成では現時点で最も可用性が高い構成であるかと思います。