年末年始に発生した障害についての説明会を開催、マニュアル不備による人為的なミスが大きな要因(KDDI) | ScanNetSecurity[国内最大級のサイバーセキュリティ専門ポータルサイト]
2017.10.21(土)

年末年始に発生した障害についての説明会を開催、マニュアル不備による人為的なミスが大きな要因(KDDI)

インシデント・事故 インシデント・情報漏えい

 KDDIは16日、年末年始に発生した4G LTEデータ通信サービスおよび、au ID認証決済システムにおける障害についての説明会を開催した。

 説明会には、同社の技術統括本部 運用本部長 内田義昭氏と、新規授業統括本部 新規ビジネス推進本部長 雨宮俊武氏が出席し、障害の概要、原因、今後の対策について説明した。

■4G LTEサービスにおける障害

 まず、年末年始立て続けに2回発生した4G LTEデータ通信における障害について。1回目の障害は2012年12月31日の午前0時0分~午前4時23分に発生し、4G LTEデータ通信サービスが利用不可もしくは利用しづらい状況になった。影響は全国で最大180万端末に及んだ。この原因については、「LTE端末から瞬間的に平常時の7倍のアクセス集中があった」ことで、ユーザーの利用通信量制御の認証を行う「加入者プロファイルサーバ」がバッファオーバーフローを起こしたことがきっかけとのこと。

 LTE端末が通信エリアに入った際、データ通信サービスを開始するためにさまざまな処理が行われるが、簡略化すると「基地局制御装置」「信号中継装置」「信号制御装置」「加入者プロファイルサーバ」を通って処理が行われる。このいずれかの段階でバッファが溢れたり、応答遅延によりタイマーの設定時間を超えたりすると、セッションが解放され、その端末は再接続を要求することになる。今回、「加入者プロファイルサーバ」の無応答や応答遅延、さらに「信号中継装置」、「信号制御装置」に設定されていた待受タイマー値の不整合も要因となり、多くのセッションがリセットされ、端末からの再接続要求が増加、輻輳が発生してしまったという。

 タイマー値の不整合だが、「信号制御装置」のタイマー値が3秒なのに対して「信号中継装置」のタイマー値が2秒と短かったため、例えば、「加入者プロファイルサーバ」からの認証応答が2.5秒だった場合、「信号制御装置」は3秒以内なのでセッションを継続するが、その先の「信号中継装置」は2秒を超えたセッションを解放してしまい、ここまでの処理が無意味になってしまうといった具合だ。

■2回目はマニュアル不備による手順ミス

 こうした問題に対して、「信号制御装置」の待受けタイマー値を1.2秒に短縮して不整合を解消し、かつ「加入者プロファイルサーバ」からの応答が無い、もしくは遅延した際に「信号制御装置」が代理応答することで、「信号中継装置」のタイマー超過を防ぐシステムを整備。これにより、今後は今回の倍ほどのアクセス集中にも耐えられるとした。なお、代理応答を行った場合「加入者プロファイルサーバ」の認証を通らずに通信を開始するため、本来7GBの容量規制を受ける端末が、規制を受けずに通信できてしまうことになる。

 次に1月2日に起きた2回目の障害だが、こちらはマニュアルの不備による人為的なミスが大きな要因とのこと。通常、問題のない範囲のアクセス集中にも関わらず「信号制御装置」のアラームが誤発報し、その際に本来であれば装置のカード系切替を実施すべきところを装置全体の復旧措置を実施してしまったため、当該装置に接続されているLTE端末とのセッションが一度に解放され、それらが一斉に再接続を要求、過度なアクセス集中が起きてしまった。マニュアルからは、アラーム誤発報の際の手順だけが何故か抜け落ちていたという。今後は手順書の整備および対応訓練の徹底で再発防止に努めるとした。

 2回目の障害では、最大175万の端末が影響を受け、2013年1月2日午前0時17分~午前2時10分までの間、4G LTEサービスが利用不可となった。なお、1回目の障害の影響は無関係とのことだ。

■au ID認証決済システムでも障害

 さらにKDDIでは、2013年1月1日にau ID認証決済システムについても障害が発生。1日午前0時12分~午前2時29分に対象サービスが利用不可、午前9時33分~午後1時33分に対象サービスが利用しづらい状況となった。

 これに関しては、データベースサーバ群のメモリアロケート処理パラメータに不適切な値があったことと、月初に行われるauかんたん決済利用限度額のクリア処理によるアクセス集中が重なり、CPUに過剰な負荷がかかったことが原因とのこと。パラメータの値を適切に変更することで対応したという。

 こうした一連の障害に対して同社では、輻輳制御メカニズムを再度総点検し、個々の装置、システムだけでなく装置間の連携動作まで確認を徹底し、再発を防ぎたいとしている。また今回設計そのものに漏れがあったことも考慮し、検証試験でその部分をカバーするための投資も増やしていくとのことだ。

KDDI、年末年始の通信障害について説明……アクセス集中、設定・手順ミスなどが原因

《白石 雄太@RBB TODAY》

関連記事

Scan PREMIUM 会員限定記事

もっと見る

Scan PREMIUM 会員限定記事特集をもっと見る

Scan BASIC 会員限定記事

もっと見る

Scan BASIC 会員限定記事特集をもっと見る

[Web小説] サイバー探偵 工藤伸治の事件簿サーガ (シーズン 1~6 第1話)

もっと見る

[Web小説] サイバー探偵 工藤伸治の事件簿サーガ (シーズン 1~6 第1話)特集をもっと見る

カテゴリ別新着記事

インシデント・事故 カテゴリの人気記事 MONTHLY ランキング

  1. 12,439件のお客さま情報が入った業務用パソコンが盗難被害(東京ガス、キャプティ)

    12,439件のお客さま情報が入った業務用パソコンが盗難被害(東京ガス、キャプティ)

  2. 脆弱性を突かれ不正アクセス、番組サイトに投稿した個人情報が流出(TOKYO MX)

    脆弱性を突かれ不正アクセス、番組サイトに投稿した個人情報が流出(TOKYO MX)

  3. 「myTOKYOGAS」へ不正アクセス、ポイントの不正使用も確認(東京ガス)

    「myTOKYOGAS」へ不正アクセス、ポイントの不正使用も確認(東京ガス)

  4. 「スピードラーニング」のデータをオークション目的でアップロードし逮捕(ACCS)

  5. スーパーフードの通販サイトでカード情報が流出、サイトは停止せず対策(フルッタフルッタ)

  6. 「ネタバレ」サイトの運営者を逮捕、アフィリエイトで3年間で3億円の収入(ACCS)

  7. 「fx-on」に不正アクセス、9,822件のクレジットカード情報が流出の可能性(株式会社ゴゴジャン)

  8. 小学校の養護教諭が児童の個人情報を保存したUSBメモリを紛失(千葉県柏市)

  9. 「剣と魔法のログレス」アカウントがRMTサイトに出品、開発元従業員を逮捕(Aiming、マーベラス)

  10. SQLインジェクション脆弱性を突いた不正アクセスで個人情報2,728件が流出(InterFM897)

全カテゴリランキング

特集

★★Scan PREMIUM 会員限定コンテンツにフルアクセスが可能となります★★
<b>★★Scan PREMIUM 会員限定コンテンツにフルアクセスが可能となります★★</b>

経営課題としてサイバーセキュリティに取り組む情報システム部門や、研究・開発・経営企画に携わる方へ向けた、創刊19年のセキュリティ情報サービス Scan PREMIUM を、貴社の事業リスク低減のためにご活用ください。

×