ところが、テキサス大学オースティン校のArvind Narayanan氏とVitaly Shmatikov氏が、「参加者に公開されたレンタル・データから利用者の特定ができる」ことを証明した『Robust De-anonymization of Large Sparse Datasets』という論文を、2008年に発表している。 この論文は、ネットフリックス社のレンタル・データと、Internet Movie Database(IMD)の情報を照らし合わせ、今まで見たことがある映画数本とその評価が分かっている利用者がある場合、その利用者をレンタル・データの中から特定する、つまり、“de-anonymize"(非匿名化)ができると結論付けている。この論文では、全利用者を特定することは無理であっても、ターゲットとなる人物の特定は簡単にできる結論している。 これを受けて、カリフォルニア州に住むレズビアンの母親が、KamberLaw LLC法律事務の弁護士を通して、ネットフリックス社をプライバシー侵害で訴訟したのが2009年の12月。そしてこの訴訟を基に、FCCも調査に乗り出したというのがコンテスト中止の背景なのだ。訴訟では、自分の性的嗜好が公開されてしまうと、日常生活に支障があるということを理由に、ネットフリックス社の全利用者につき一人$2,500(現在ネットフリックスの利用者は200万人と言われているため、なんと、合計4550億円!)の損害賠償金と、2010年のコンテストの中止を要求していた。ネットフリックス社と訴訟人とは後に和解しているが、2010年のコンテストは中止となった。
上記ネットフリックス社のブログには、推薦アルゴリズム向上のためなら自分のデータを利用してもらってかまわない、という旨のコメントが殺到しているが、今年のコンテスト用レンタル・データには、利用者の郵便番号、年齢、性別までが含まれたデータが公開される予定だった。 カーネギー・メロン大学コンピューター・サイエンス学部のLatanya Sweeney氏の論文、『Uniqueness of Simple Demographics in the U.S. Population』によれば、「郵便番号、性別、生年月日がわかれば、87%の米国居住者を特定できる」というから、ここまで仔細の利用者情報を公開してしまったら、利用者のプライバシーは存在しないのと同等となっていた。データの公開が中止されたのは当然だろう。
こうした匿名データから個人を特定する技術によって利用者情報漏洩事件を起こしてしまうのは、ネットフリックス社に限ったことでない。 2006年にはAOLが、匿名化した65万人強の利用者のサーチ・クエリを販売しようとしたところ、EFFからクレームがついている。サーチ・クエリには、社会保障番号や、住所など、利用者の名前などを隠しても、個人を特定できる情報が含まれていたからだ。 また、去年の5月には、同じように利用者の氏名などを隠したGPSのデータであっても、利用者を特定できると Palo Alto Research CenterのPhilippe Golle氏とKurt Partridge氏が発表している。両氏は、GPSデバイスが長居するのはオフィスと家であるから、この二つの場所と国勢調査局のデータを照らし合わせて、ターゲットの特定に成功している。
【執筆:米国 笠原利香】
『Robust De-anonymization of Large Sparse Datasets』 http://userweb.cs.utexas.edu/~shmat/shmat_oak08netflix.pdf
Uniqueness of Simple Demographics in the U.S. Population http://www.citeulike.org/user/burd/article/5822736
《ScanNetSecurity》