レンタルサーバ大規模障害、その原因と対策 後編 | ScanNetSecurity
2024.04.25(木)

レンタルサーバ大規模障害、その原因と対策 後編

これらの原因をみると、「スーパーエンジニア」の存在が浮かんできます。この担当者は社内のマニュアルを無視し、独自のやり方でメンテナンスを実施しており、上司もそれを黙認していたといいます。

特集 特集
2012年6月、データセンターとホスティングサービスで大規模障害が発生しました。ひとつは富士通の「館林システムセンター」、もうひとつはファーストサーバの複数のサービスです。どちらも多大な影響が発生し、ユーザーのものを含む膨大なデータが失われました。今回は、この2つの大規模障害の原因と、サービスの利用時にユーザーが注意すべきことをまとめてみたいと思います。

●原因は「スーパーエンジニア」?

報告書では、障害の原因として「脆弱性対策のための更新プログラムの不具合」「メンテナンス時の検証手順」「メンテナンス仕様」の3つを挙げています。同社では、脆弱性対策のためのメンテナンスが必要となる都度、メンテナンスのための更新プログラムを作成しており、今回も作成しています。そのプログラムに、ファイル削除コマンドを停止させるための記述漏れと、メンテナンスの対象となるサーバー群を指定するための記述漏れが発生していたといいます。

メンテナンスに際しては、検証環境でまず動作確認を行うという手順が定められていましたが、プログラム実行後の動作確認を行う対象は、あくまでも当該メンテナンス対象サーバー群を確認すれば足りるとされていたため、検証環境下で対象サーバー以外に影響が及んだことの確認がないまま、動作確認上は問題なしと判定され本番環境での実施が行われました。

メンテナンス仕様では、過去の教訓から脆弱性対策のメンテナンスに関しては対象サーバー群とそのサーバー群のバックアップ領域に対して同時に更新プログラムを適用するという構造に修正して実施しました。

これらの原因をみると、「スーパーエンジニア」の存在が浮かんできます…

※本記事は有料版に全文を掲載します
《吉澤 亨史( Kouji Yoshizawa )》

関連記事

Scan PREMIUM 会員限定記事

もっと見る

Scan PREMIUM 会員限定記事特集をもっと見る

カテゴリ別新着記事

「経理」「営業」「企画」「プログラミング」「デザイン」と並ぶ、事業で成功するためのビジネスセンスが「セキュリティ」
「経理」「営業」「企画」「プログラミング」「デザイン」と並ぶ、事業で成功するためのビジネスセンスが「セキュリティ」

ページ右上「ユーザー登録」から会員登録すれば会員限定記事を閲覧できます。毎週月曜の朝、先週一週間のセキュリティ動向を総括しふりかえるメルマガをお届け。(写真:ScanNetSecurity 名誉編集長 りく)

×