CrowdStrike Blog:SHAPを使用してCrowdStrikeが機械学習モデルを強化する方法 | ScanNetSecurity
2020.04.08(水)

CrowdStrike Blog:SHAPを使用してCrowdStrikeが機械学習モデルを強化する方法

SHAPを使用すると、モデルがどのように最終決定に至ったかに関する知見をより多く得ることができます。あるファイルの任意の特徴量に注目するのではなく、そのモデルが直感的で堅牢な特徴量を使用して予測を行っているという確信が得られます。

国際 海外情報
 CrowdStrikeでは、新しいマルウェアファミリーを検知し、顧客を安全に保つための主要なツールとして機械学習を採用しています。当社では、数千もの機能を持つ勾配ブースティングツリーを使用して、ファイルサンプルがマルウェアなのかクリーンなのかを分類しています。このモデルは高精度な予測を実現しますが、複雑であるために、このモデルがどのように予測を行うかを理解することは困難です。

 CrowdStrikeは、シャープレイ値の理論を実装するPythonパッケージであるSHAPを使用して、機械学習テクノロジーを強化し、CrowdStrike Falconプラットフォームの脅威検知能力を高めています。以下にこのアプローチの仕組みとSHAPを使用する利点を説明します。

価値理論への全体的なアプローチ

 SHAPは、ある特徴量の値が各サンプルの平均予測をどの程度変化させるかを定量化する全体的な方法です。CrowdStrikeにおけるマルウェア検知のコンテキストでは、サンプルの特徴量のシャープレイ値により次のことが示されます。

・特徴量がファイルを「cleaner」(青)とするか、「dirtier」(赤)とするかは、SHAP値の記号(‐はclean、+はdirty)によって決定される

・寄与の程度(値の大きさで表す)

 各特徴量のシャープレイ値を加算して、サンプルがしきい値のどちら側にあるか(cleanか、dirtyか)を確認します。この方法によって、個々のファイルを調べて、予測値をどちらかの側に動かすdirtyおよびcleanの影響力を判断できます(図1)。

図1:Forceプロットで示すシャープレイ値の関係。各特徴量がモデル予測にどのように寄与するかを表す。
図1:Forceプロットで示すシャープレイ値の関係。各特徴量がモデル予測にどのように寄与するかを表す。

特徴量エンジニアリングを助けるSHAP

 SHAPツールを内部プロジェクトに利用する方法は数多くあります。たとえば、社内チームは、特徴量エンジニアリングにSHAPがどのように役立つかを調査しています。私たちは、あらゆる種類のマルウェアに、多層の防御機能をもって対抗したいと考えています。防御層の1つは、あるマルウェアファミリーが発生したときに、当社のセキュリティアナリストの専門知識を活用して、特定の特徴量を作成することです。特徴量の候補を作成したら、それらがマルウェアファミリーの本質を捉えていることを確認することになります。

 新しい特徴量候補を使ってモデルの学習を行ったら、SHAPを使用して、それらの新しい特徴量がそのマルウェアファミリーのものと分かっているファイルのサブセットにどの程度の影響があるかを調べることができます。それにより、特徴量を作成するエンジニアは、それらの特徴量が有効であるか否かをただちに把握できます。

図2:SHAPライブラリから計算されたシャープレイ値を使用して行ったファイルサブセットの予測に寄与している上位の特徴量の棒グラフ
図2:SHAPライブラリから計算されたシャープレイ値を使用して行った
ファイルサブセットの予測に寄与している上位の特徴量の棒グラフ

 図2の左側のグラフは、「AutoIt」ファミリーのファイルのランダムな集合体に寄与する上位の特徴量を示しています。左側のグラフには、特徴量AutoITが2つ確認できます。これは、右側のサンプルのランダムなサブセットのサマリープロットとは対称的です。こちらでは、checksum featureが最も重要な特徴量であり、特定のグループ/ファミリー(DotNet、AutoItなど)に対応する特徴量はありません。

 これは、サブセット分析の目的を明らかにするものです。サブセットのサマリープロットを分析することにより、特徴量の候補の有効性を確認できます。また、それらのサンプルの分類において、他のどの特徴量が重要であるかを判断できます。

 それにより、新しい特徴量が有効であることが再確認されます。反対に、寄与していない特徴量を削除することも可能です。それにより、学習プロセスが高速化され、モデルをより迅速に更新できます。モデルの更新プロセスを効率化し、特徴量エンジニアリングプロセスに対する実用的な知見を得ることが、最新のマルウェアを検知・防御するうえでの鍵となります。知見が増えて更新サイクルが加速されることにより、新しい保護機能をより迅速にお客様に提供できるようになります。

SHAPが重要な知見を提供

 SHAPを使用すると、モデルがどのように最終決定に至ったかに関する知見をより多く得ることができます。あるファイルの任意の特徴量に注目するのではなく(この場合は、一般化が行われない)、そのモデルが直感的で堅牢な特徴量を使用して予測を行っているという確信が得られます。また、一般化は、機械学習をマルウェアの検知と防御のための強力なツールにするうえで重要です。CrowdStrikeのデータサイエンスチームが、オープンソースツールと、当社のクラウドソーシングによる膨大なデータストリームおよびソースとを組み合わせ、機械学習の力を駆使してどのように顧客を保護しているかを、SHAPが的確に表します。

追加のリソース:

・CrowdStrikeのチーフサイエンティストSven Krasserによる機械学習に関する記事をご一読ください。“Machine Learning in Cybersecurity: The First Line of Defense Against Modern Threats.

・詳細については、CrowdStrike FalconプラットフォームのWebページをご参照ください。

・CrowdStrikeの次世代型AVをお試しください。Falcon Preventの無料トライアル版をすぐに試してみましょう。

*原文はCrowdStrike Blog サイト掲載 :https://www.crowdstrike.com/blog/how-crowdstrike-enhances-machine-learning-with-shap/
《Cynthia Lai (CrowdStrike)》

関連記事

Scan PREMIUM 会員限定記事

もっと見る

Scan PREMIUM 会員限定記事特集をもっと見る

カテゴリ別新着記事

★★ ( FB ログイン可) 会員限定記事、週 1 回のメルマガ、人気ニュースランキング、特集一覧をお届け…無料会員登録はアドレスのみで所要 1 分程度 ★★
★★ ( FB ログイン可) 会員限定記事、週 1 回のメルマガ、人気ニュースランキング、特集一覧をお届け…無料会員登録はアドレスのみで所要 1 分程度 ★★

登録すれば、記事一覧、人気記事ランキング、BASIC 会員限定記事をすべて閲覧できます。毎週月曜朝には一週間のまとめメルマガをお届けします(BASIC 登録後 PREMIUM にアップグレードすれば全ての限定コンテンツにフルアクセスできます)。

×