トレンドマイクロ株式会社は6月16日、Codexのデータ収集におけるセキュリティリスクについて、同社ブログで発表した。
自然言語処理モデル「Generative Pre-trained Transformer」をリリースしている非営利団体「OpenAI」は、プログラマのコーディング作業の支援を目的にプログラミング言語に特化した「Codex」をリリースしている。「Codex」は汎用言語モデルであるため、自然言語のコメント文も入力として受け取ることが可能で、ユーザが選択したプログラミング言語に対応するプログラミングコードを「補完」する。
トレンドマイクロでは、Codexの現時点における機能が、攻撃者の活動に与える影響、開発者や一般ユーザが実施できるセキュリティ対策、Codexが今後どのように進化していくかの3つのテーマから取り上げ、本ブログではサイバー攻撃の主軸である「偵察」「ソーシャルエンジニアリング」「脆弱性の利用」という3つの観点からCodexの持つ機能の可能性を分析している。
トレンドマイクロでは、「Generative Pre-trained Transformer」が機密情報を内部のナレッジベースに保存しているか、それをCodexのコード生成機能を経由して抽出できるかどうか調査を実施、Codexに対し意図的に公開リポジトリ内の機密情報にアクセスさせ、Codexが生成結果に機密情報付きのURLを含めて出力させることに成功している。Codexが意図せず露出させる機密情報はURLだけでなく、コードの特定部分を実装した担当者情報や従業員情報、暗号資産ウォレット番号さえも、露出させる可能性があると指摘している。
また個人情報だけでなく、認証情報やAPIのエントリポイントを自動補完させる要求をCodexに行うことも可能で、FedExとDHLの認証情報が露出された例を図示している。