日本電気株式会社(NEC)は2024年12月20日、「AIセーフティに関するレッドチーミング手法ガイド」について、ペネトレーションテスター視点からの解説記事を同社セキュリティブログで発表した。サイバーセキュリティ戦略統括部セキュリティ技術センターの榊龍太郎氏が執筆している。
IPAのAIセーフティ・インスティテュート(AISI)が公開した「AIセーフティに関するレッドチーミング手法ガイド」は、構築したAIシステムのリスクを攻撃者の視点で評価する際の考慮事項を示すもので、レッドチーミングの基本概念(目的や効果、種類等)から実践手法まで、レッドチーミングの全プロセスを具体的に解説しており、AIシステムに対して脆弱性診断やペネトレーションテストを実施する際の指針となる。
同ガイドの各章は下記の通り。
1章.はじめに
ガイドの目的や背景、想定読者について説明。
AIシステムの中でもLLMを構成要素とするものを対象としている点や、AISI「AIセーフティに関する評価観点ガイド」で「AIセーフティにおける重要要素」として紹介されている「人間中心」、「安全性」、「公平性」、「プライバシー保護」、「セキュリティ確保」、「透明性」の観点を取り入れている点が特徴的としている。
2章. レッドチーミングについて
レッドチーミングを実施する目的、効果、種類、注意点を解説。
「2.5 AIのレッドチーミングに固有の注意点」の後半に記載されている「再現性の欠如」については、一般的なペネトレーションテストと異なる点であったとしている。
3章. LLMシステムへの代表的な攻撃手法
プロンプトインジェクションをはじめとする、LLMに対する代表的な攻撃手法を解説。
保護すべき資産として「訓練データ」、「モデル」、「クエリ」、「ソースコード」、「リソース」、「LLMシステム」全体を取り上げ、それぞれに対する攻撃を例示。
4章. 実施体制と役割
AIレッドチーミングを実施する際の体制や役割について解説。
5章. 実施時期及び実施工程
レッドチーミングを実施する際のプロセスを詳細に解説。
リリース後も定期的にレッドチーミングを実施することを推奨する理由として、オンライン学習によるモデルの再学習等を挙げている。
6章. 実施計画の策定と実施準備
レッドチーミングの実施計画の策定と実施準備を解説。
7章. 攻撃計画・実施
実際に攻撃を実施するフェーズについて解説。
攻撃シナリオ作成の観点整理や、シナリオ例が提示されているところを特徴的な点として挙げている。
8章. 結果の取りまとめと改善計画の策定
実施した攻撃の結果をもとに報告書を作成し、改善計画を策定・実施する手順について解説。
「再現性の欠如」を考慮する必要がある点が特徴的としている。