株式会社リチェルカセキュリティは7月5日、対話型AIサービスに対する脆弱性診断の提供を開始すると発表した。
対話型AIサービスへの攻撃は、攻撃者が特殊な入力プロンプトをソフトウェアへ送信し、その応答を入力プロンプトにフィードバックするサイクルを繰り返すことで実行された敵対的プロンプトが、ソフトウェア内部の情報を詐取したり、不正な応答を引き出したり、通常禁止された動作を対話型AIサービスへ強要する。敵対的プロンプトへの対策としては、入出力のフィルタ機構の導入があるが日々多様化する攻撃手法への対応が求められる。
同社の 対話型AIサービスに対する診断メニューは下記の通り。
・対話型AIサービスのブラックボックス診断
同社のAIエンジニアチームが、敵対的プロンプトを用いてサービスを診断。頻出の攻撃パターンからサービスに特化したパターンまで、多角的な視点からサービスを診断可能。
・対話型AIサービスのホワイトボックス診断
内部プロンプトの実装を考慮したソフトウェア全体への診断を実施。対話型AIサービスへのファイアウォールの実装など、周辺ソフトウェアを含めた診断にも対応。
・対話型AIサービスを対象としたセキュリティコンサルティング
堅牢なプロンプト設計や、対話型AIの応答からの意図しない情報流出対策など、弊社研究者が対話型AIサービスのセキュリティ品質向上に関するノウハウを提供。
同社では日本語環境に最適化された独自の敵対的プロンプトのデータセットを構築し、対話型AIに対する脆弱性診断サービスに取り入れている。
同社の対話型AIサービス診断では、内部プロンプトや機密情報の漏えいリスク、応答によるレピュテーションの低下リスクを検証し、さらに実際にレピュテーション汚染が行われているかの調査も可能。