AWS 東京リージョンで発生した大規模障害について【現在は復旧】

プログラミング

2019年8月23日の13時頃からAmazon AWS 東京リージョンでシステム障害が発生し、EC2インスタンスに接続できない等の影響が発生していました。

まさに直撃を受けたのだが、8月23日午後8時ごろまでにほぼ復旧したと米アマゾン・ウェブ・サービス明らかにした

【現在は復旧】AWS 東京リージョンで発生した大規模障害について

2019年8月23日の13時頃から開発中のテストサーバー(ec2)へアクセスができない…

ということでインスタンスを再起動するもの復旧せずなわけ。

Network Connectivity

[09:18 PM PDT] We are investigating connectivity issues affecting some instances in a single Availability Zone in the AP-NORTHEAST-1 Region.

[09:47 PM PDT] We can confirm that some instances are impaired and some EBS volumes are experiencing degraded performance within a single Availability Zone in the AP-NORTHEAST-1 Region. Some EC2 APIs are also experiencing increased error rates and latencies. We are working to resolve the issue.

EC2 については東京リージョンの1つのアベイラビリティゾーンで、複数のインスタンスやEBSボリュームのパフォーマンス低下していた。

またあわせてEC2 APIのエラーレートとレイテンシーが増加していた。

Instance Availability

[10:22 PM PDT] We are investigating connectivity issues affecting some instances in a single Availability Zone in the AP-NORTHEAST-1 Region.

RDSについては東京リージョンの1つのアベイラビリティゾーンで発生している、複数インスタンスに対する接続性の問題。

ap-northeast-1a がだめみたいな状況だった

最悪の場合は、最後のスナップショット(バックアップ)からリージョン未指定で戻す準備したりとかしてたけど無事 aws の大規模障害は復旧した。

aws での障害が起きた時の状況確認

8月23日AWS障害が起きた時のService Health Dashboard

状況については随時 Service Health Dashboard にて報告されているので、ここを参照するのが早い

今後何かあった時のためにもログとして残しておこうと思う。