「Amazon Mechanical Turk」のようなクラウドソーシングサービスを通じて仕事を受注したクラウドワーカーは、業務に大規模言語モデルを使用している。これによって、今後の AIモデルに連鎖的に悪影響が生じてしまう可能性がある。
データは AI の命だ。開発者が、正確かつ信頼できる機械学習システムを構築するには、クリーンで高品質なデータセットが必要となる。しかし、価値あるトップクラスのデータを取りまとめる作業は、時としてかなり大変だ。そこで、企業はしばしば、「Amazon Mechanical Turk」のようなサードパーティのプラットフォームを通して、大量の安い労働力に指示を出して、反復的タスクを人間に行わせる。そんな単純タスクの例としては「物品のラベル付け」「状況の記述」「文字起こし」そして「テキストへの註釈付け」などがある。
こうして作ったデータをクリーニングして、それをもとにモデルをトレーニングすれば、こうしたタスクをはるかに大規模に自動的に再現して行わせることができるようになる。
つまり、AIモデルは、人間の労働があって成り立っているものなのだ。人々が大変な苦労をしながら作った大量のトレーニングデータがあって初めて、企業が数十億ドルを稼げる AIシステムができあがるということだ。
しかし、スイス連邦工科大学ローザンヌ校(EPFL)の研究者らが実施した実験では、こうしたクラウドソーシングで調達できる労働者は、OpenAI のチャットボット「ChatGPT」のような AIシステムを用いて、ネット上で受注したギグワークをこなしているという結論になった。
モデルを、そのモデル自身が出力した内容に基づいてトレーニングすることは、好ましくない。にもかかわらず、人間ではなく別の AIモデル、さらにはその AIモデル自身が生成したデータで AIモデルをトレーニングしてしまうという事態が、今後実際に発生する可能性がある。そうなれば、出力内容の品質が非常に悪くなってしまったり、バイアスの助長につながってしまったり、その他の好ましくない影響が生じてしまったりする可能性がある。