2012年6月、データセンターとホスティングサービスで大規模障害が発生しました。ひとつは富士通の「館林システムセンター」、もうひとつはファーストサーバの複数のサービスです。どちらも多大な影響が発生し、ユーザーのものを含む膨大なデータが失われました。今回は、この2つの大規模障害の原因と、サービスの利用時にユーザーが注意すべきことをまとめてみたいと思います。●原因は「スーパーエンジニア」?報告書では、障害の原因として「脆弱性対策のための更新プログラムの不具合」「メンテナンス時の検証手順」「メンテナンス仕様」の3つを挙げています。同社では、脆弱性対策のためのメンテナンスが必要となる都度、メンテナンスのための更新プログラムを作成しており、今回も作成しています。そのプログラムに、ファイル削除コマンドを停止させるための記述漏れと、メンテナンスの対象となるサーバー群を指定するための記述漏れが発生していたといいます。メンテナンスに際しては、検証環境でまず動作確認を行うという手順が定められていましたが、プログラム実行後の動作確認を行う対象は、あくまでも当該メンテナンス対象サーバー群を確認すれば足りるとされていたため、検証環境下で対象サーバー以外に影響が及んだことの確認がないまま、動作確認上は問題なしと判定され本番環境での実施が行われました。メンテナンス仕様では、過去の教訓から脆弱性対策のメンテナンスに関しては対象サーバー群とそのサーバー群のバックアップ領域に対して同時に更新プログラムを適用するという構造に修正して実施しました。これらの原因をみると、「スーパーエンジニア」の存在が浮かんできます…※本記事は有料版に全文を掲載します