SCAN DISPATCH ：匿名化した利用者データの公表が、なぜ、個人情報漏洩に？

SCAN DISPATCH は、アメリカのセキュリティ業界及ハッカーコミュニティか
ら届いたニュースを、狭く絞り込み、深く掘り下げて掲載します。

─

米国のDVD宅配サービスのネットフリックス社は毎年、全世界のエンジニア向けにコンテストを開催していた。コンテストの内容は、利用者への「お勧めDVDサービス」のアルゴリズムを向上して、現在使用されているものよりも10％以上正確度が増加した場合、1億ドル（約9000万円）の賞金がもらえるというもの。　このコンテストは2006年に開始されたが、2007、2008年とも参加者の提出したアルゴリズムの向上率が7〜8％に留まったため、優勝者がなかった。2009年に初めて、AT&Tの研究者らによる『BellKor’s Pragmatic Chaos』チームが、見事優勝金を手に入れている。

ところが、ネットフリックス社が2010年に予定していた第二段の映画推薦アルゴリズム開発コンテストが、意外な理由で中止になってしまった。米連邦通信委員会（FCC）からクレームがついたのだ。ネットフリックス社のチーフ・プロダクト・オフィサーであるNeil Hunt氏が、そのブログで「FCCから、コンテストが利用者のプライバシーどのような影響を与えるかと問い合わせがあったこと、そして、KamberLaw LLC法律事務所から訴追を受けたこと」などを理由に、コンテストを中止すると報告している。

それにしても映画推薦アルゴリズム開発なぜ、利用者のプライバシー侵害になるのだろうか？　米国では、『1988 Video Privacy Protection Act』によって、レンタルビデオの個人情報に非常に厳しい保護がかかっている。この法律は、最高裁判所裁判官候補者のRobert Bork氏のレンタルビデオの情報がマスコミに漏れた、という事件をきっかっけに制定されている。　映画推薦アルゴリズム開発に使用されるデータが、この法律に違反するというのだ。

ネットフリックス社のコンテストに参加すると、利用者の映画評価（星１〜星５）と、評価を行った日時、評価した映画の情報が入った1億件のレンタル・データが社から供給され、参加者はこのデータを使用してアルゴリズム開発を行う。データ中の利用者の氏名などの個人情報は番号と置き換えられており、利用者をこのデータから特定することは不可能と考えられていた。アルゴリズム向上コンテスト参加した人数は全部で5万人。つまり、ネットフリックス社はレンタル・データを全世界5万人に公開していたのだ。

ところが、テキサス大学オースティン校のArvind Narayanan氏とVitaly Shmatikov氏が、「参加者に公開されたレンタル・データから利用者の特定ができる」ことを証明した『Robust De-anonymization of Large Sparse Datasets』という論文を、2008年に発表している。　この論文は、ネットフリックス社のレンタル・データと、Internet Movie Database（IMD)の情報を照らし合わせ、今まで見たことがある映画数本とその評価が分かっている利用者がある場合、その利用者をレンタル・データの中から特定する、つまり、“de-anonymize"（非匿名化）ができると結論付けている。この論文では、全利用者を特定することは無理であっても、ターゲットとなる人物の特定は簡単にできる結論している。　これを受けて、カリフォルニア州に住むレズビアンの母親が、KamberLaw LLC法律事務の弁護士を通して、ネットフリックス社をプライバシー侵害で訴訟したのが2009年の12月。そしてこの訴訟を基に、FCCも調査に乗り出したというのがコンテスト中止の背景なのだ。訴訟では、自分の性的嗜好が公開されてしまうと、日常生活に支障があるということを理由に、ネットフリックス社の全利用者につき一人$2,500（現在ネットフリックスの利用者は200万人と言われているため、なんと、合計4550億円！）の損害賠償金と、2010年のコンテストの中止を要求していた。ネットフリックス社と訴訟人とは後に和解しているが、2010年のコンテストは中止となった。

上記ネットフリックス社のブログには、推薦アルゴリズム向上のためなら自分のデータを利用してもらってかまわない、という旨のコメントが殺到しているが、今年のコンテスト用レンタル・データには、利用者の郵便番号、年齢、性別までが含まれたデータが公開される予定だった。　カーネギー・メロン大学コンピューター・サイエンス学部のLatanya Sweeney氏の論文、『Uniqueness of Simple Demographics in the U.S. Population』によれば、「郵便番号、性別、生年月日がわかれば、87％の米国居住者を特定できる」というから、ここまで仔細の利用者情報を公開してしまったら、利用者のプライバシーは存在しないのと同等となっていた。データの公開が中止されたのは当然だろう。

こうした匿名データから個人を特定する技術によって利用者情報漏洩事件を起こしてしまうのは、ネットフリックス社に限ったことでない。　2006年にはAOLが、匿名化した65万人強の利用者のサーチ・クエリを販売しようとしたところ、EFFからクレームがついている。サーチ・クエリには、社会保障番号や、住所など、利用者の名前などを隠しても、個人を特定できる情報が含まれていたからだ。　また、去年の5月には、同じように利用者の氏名などを隠したGPSのデータであっても、利用者を特定できると Palo Alto Research CenterのPhilippe Golle氏とKurt Partridge氏が発表している。両氏は、GPSデバイスが長居するのはオフィスと家であるから、この二つの場所と国勢調査局のデータを照らし合わせて、ターゲットの特定に成功している。

【執筆：米国　笠原利香】

『Robust De-anonymization of Large Sparse Datasets』
http://userweb.cs.utexas.edu/~shmat/shmat_oak08netflix.pdf

Uniqueness of Simple Demographics in the U.S. Population
http://www.citeulike.org/user/burd/article/5822736