2024.07.18

AIの学習にYouTube動画の字幕を無許可利用、アップルやNVIDIA、Anthropicも使ったデータセットが波紋

YouTubeの動画から音声を文字起こしした字幕が抽出され、アップルやNVIDIA、Anthropic、セールスフォースなどがAIの学習に利用していたことが、データに基づく調査報道を手がけるProof Newsと『WIRED』の共同取材で明らかになった。

この記事はProof Newsと『WIRED』によって共同制作された。

データを大量に必要とする人工知能（AI）モデルにデータを供給するために、テック企業は物議を醸す手法を用いるようになっている。書籍やウェブサイト、写真、ソーシャルメディアの投稿を、多くの場合はクリエイターが知らないうちに収集しているのだ。

AI企業は一般的に、学習データの情報源を明かしたがらない。だが、データに基づく調査報道を手がけるProof Newsの調べによると、世界的に見て最も稼いでいるとされるAI関連企業の一部は、AIを訓練する目的で数千本ものYouTube動画の素材を使用していた。YouTubeから無許可で素材を収集することは規約で禁じられているが、それにもかかわらず一部の企業はこうしたデータを無許可で利用していたのである。

Proof Newsと『WIRED』の調査によると、48,000以上のチャンネルから抽出された17万3,536本のYouTube動画の字幕が、Anthropic、NVIDIA（エヌビディア）、アップル、セールスフォースなどのシリコンバレーの大企業によって使用されていたことが明らかになった。

このデータセットは「YouTube Subtitles」と呼ばれており、教育系非営利団体の「カーンアカデミー」やマサチューセッツ工科大学（MIT）、ハーバード大学などの教育チャンネルのほか、オンライン学習チャンネルの動画のトランスクリプト（文字起こしによる字幕）が含まれている。このほか、『ウォール・ストリート・ジャーナル』や公共放送のナショナル・パブリック・ラジオ（NPR）、BBCの動画、深夜トーク番組『The Late Show with Stephen Colbert』『Last Week Tonight With John Oliver、『Jimmy Kimmel Live!』といった米国の人気テレビ番組の動画も、AIの訓練に使われていた。

さらに、世界トップクラスの人気を誇るYouTuberたちの素材もAIの学習に利用されていたことが、Proof Newsの調べで明らかになった。例えば、ミスタービースト（登録者数3億人、AIの訓練に使われた動画は2本）、マルケス・ブラウンリー（登録者数1,900万人、AIの訓練に使われた動画は7本）、Jacksepticeye（登録者数3,070万人、AIの訓練に使われた動画は377本）、PewDiePie（登録者数1.11億人、AIの訓練に使われた動画は337本）などだ。AIの学習に用いられた素材のなかには、「地球平面説」のような陰謀論をあおるものもあった。

この件に関連してProof Newsは、YouTubeのAI訓練データセットに含まれるクリエイターを検索するためのツールを作成している。

「これは盗用そのもの」

「これまでに『動画を使わせてほしい』なんで、誰も言ってきませんでした」と、登録者数200万人以上で再生回数20億回以上を誇る左翼系の政治YouTubeチャンネル「The David Pakman Show」を運営するデイヴィッド・パックマンは語る。パックマンの動画のうち、160本近くがYouTube Subtitlesの訓練データセットに取り込まれていた。

パックマンの企業では4人がフルタイムで働いており、複数の動画を毎日投稿し、ポッドキャストやTikTok動画などのプラットフォーム向けの素材を制作している。AI企業が報酬を得ているなら、自身のデータの使用について対価が支払われるべきだとパックマンは言う。そして、一部のメディア企業が最近になって、AIの訓練に自社コンテンツが使用された場合に報酬を受ける契約を結んでいることをパックマンは指摘する。

「わたしはこれを生業にしており、このコンテンツをつくるために時間やリソース、資金、スタッフの時間を投じています」と、パックマンは言う。「やるべきことが尽きることなどありません」

「これは盗用そのものです」と、部分的にクリエイターによって所有されているストリーミングサービスを運営するNebulaの最高経営責任者（CEO）のデイブ・ウィスカスは言う。Nebulaのクリエイターのなかには、YouTubeから自身の作品が収集され、AIの訓練に使われた人もいる。

同意なしにクリエイターの作品を使用することは、特に大手スタジオが「できるだけ多くのアーティストを生成AIに置き換えようとする」可能性があることから、「クリエイターを冒瀆（ぼうとく）する行為」であるとウィスカスは指摘する。「これはアーティストから搾取し、アーティストに害を及ぼすために使われるのでしょうか。間違いなくそうでしょうね」

動画が許可なく使用されているという疑惑を含むProof Newsの調査結果について、データセットを作成した非営利団体「EleutherAI」の代表にコメントを求めたが、回答はなかった。EleutherAIのウェブサイトでは、巨大テック企業のきらびやかな壁の外にいる人々にとってAI開発の障壁を下げることが全体的な目標として掲げられている。そして、これまでに「モデルを訓練し公開することで、最先端のAI技術へのアクセス」を提供してきたと書かれている。

アップルやNVIDIA、セールスフォースの利用も明らかに

YouTube Subtitlesには動画の画像は含まれていないが、データは動画の字幕のプレーンテキストで構成されている。また多くの場合には、日本語やドイツ語、アラビア語などの言語への翻訳が含まれていた。

EleutherAIが発表した研究論文によると、このデータセットはEleutherAIが公開した「The Pile」と呼ばれる大規模なデータセットの一部だという。The Pileの開発者は、YouTubeだけでなく、欧州議会や英語版Wikipediaのほか、エンロンに対する米連邦政府の調査の一環として公開されたエンロン従業員によるメールからも素材を収集している。

The Pileのデータセットの大部分は、十分なストレージ容量とコンピューターの処理能力さえあれば誰でもアクセスして利用できるようになっている。巨大テック企業のほかにも学者や開発者たちもこのデータセットを利用していたが、利用者はそれだけではない。

時価総額が数千億ドルから数兆ドルに達するアップルやNVIDIA、セールスフォースは、AIを訓練するためにThe Pileをどのように用いたかについて研究論文や投稿に記している。また、アップルがiPhoneとMacBookに新しいAI機能を追加することを発表する数週間前の4月に公開した注目のモデル「OpenELM」の訓練にも、The Pileが使われていることが文書で示されていた。ブルームバーグとDatabricksもThe PileでAIモデルを訓練していたことが、それぞれが公開した情報によって明らかになっている。

「AIの安全性」に注力することを訴求しているAI大手のAnthropicも、同じようにThe Pileを使ってモデルを訓練していた。Anthropicはアマゾンから40億ドルの出資を受けている。

Anthropicの広報担当者は、生成AI「Claude」におけるThe Pileの使用を認める声明において、「The PileにはYouTubeの字幕のごく一部が含まれています」と説明している。「YouTubeの規約はプラットフォームの直接利用を対象としており、The Pileのデータセットの利用とは異なるものです。YouTubeの利用規約に違反している可能性があるという点については、The Pileの開発者に問い合わせてください」

またセールスフォースも、「学術・研究目的」でAIモデルを構築するためにThe Pileを使用したことを認めた。セールスフォースのAI研究担当バイスプレジデントのカイミン・ションは声明において、このデータセットは「一般公開されている」ことを強調している。

後にセールスフォースは、そのAIモデルを2022年に一般向けに公開した。オープンソースのAIプラットフォーム「Hugging Face」のページによると、このAIモデルは公開されて以降、少なくとも86,000回ほどダウンロードされているという。

セールスフォースの開発者は研究論文において、The Pileには冒瀆的な言葉のほかに「ジェンダーや特定の宗教団体に対する偏見」も含まれていると指摘したうえで、それが「脆弱性や安全性の懸念」につながる可能性があると警告していた。実際にProof Newsの調査からは、YouTube Subtitlesに何千もの冒瀆的な言葉や、人種やジェンダーを中傷する表現があることが明らかになっている。セールスフォースの担当者に安全性への懸念について質問したが、回答は得られなかった。

また、NVIDIAの担当者はコメントを控えている。アップル、Databricks、ブルームバーグの担当者はコメントの要請に応じなかった。

潜在的な「金鉱」

ブラジルのリオデジャネイロにあるジェトゥリオ・ヴァルガス財団リオデジャネイロ法科大学院のAI政策研究者でCyberBRICSのフェローであるジャイ・ヴィプラは、より質の高いデータを入手することなどによってAI企業は競い合っていると指摘している。それが企業がデータの情報源を明かさない理由のひとつになっているわけだ。

今年4月には『ニューヨーク・タイムズ』が、ユーチューブの親会社であるグーグルがYouTubeの動画を文字起こしして自社のAIモデルの訓練に利用していたことを報じている。この報道に対してグーグルの広報担当者は、YouTubeのクリエイターとの契約に基づいて使用が許可されていると説明していた。

『ニューヨーク・タイムズ』の調査によると、OpenAIがYouTubeの動画を無許可で使用していたことも明らかになっている。OpenAIの広報担当者は、この報道について肯定も否定もしなかった。

これまでOpenAIの幹部は、テキストプロンプトから動画を生成するAIモデル「Sora」の訓練にYouTube動画を使用したかという質問に対して、公式な回答を幾度となく避けてきた。

OpenAIの最高技術責任者（CTO）のミラ・ムラティに、『ウォール・ストリート・ジャーナル』の記者が今年はじめに再びこの質問をしたときも同様だ。「それについては、実はよく知りません」と、ムラティは答えている。

YouTubeの字幕やその他の音声テキストデータは、人間の話し方や会話方法を再現するモデルの訓練に役立つことから、潜在的な「金鉱」であるとヴィプラは語る。

「あくまでも原則的には、という話なのです」と、化学などの科学チュートリアルチャンネル「Professor Dave Explains」の司会を務めるデイヴ・ファリーナは語る。300万人の登録者を有する彼のチャンネルは、YouTube Subtitlesで140本の動画が使用されていた。

「誰かがわたしがこれまでしてきた仕事（プロダクトの構築）から利益を得ているなら、わたしや、わたしと同じような仕事をしている人々は仕事を失ってしまいます。ですから、補償金や何らかの規制について話し合う必要が出てくるでしょう」と、ファリーナは言う。

企業側は「フェアユース」と主張

2020年に提供が始まったYouTube Subtitlesには、後にYouTubeから削除された12,000本以上の動画の字幕も含まれている。少なくともある事例では、クリエイターがオンライン上の作品すべてを削除したにもかかわらず、そのデータはいまだに無数のAIモデルに組み込まれていた。

この記事の取材においてProof Newsは、記事で名前が挙がったチャンネルの所有者たちに連絡を試みたが、多くはコメントの要請に応じていない。話を聞けたクリエイターのなかには、自分の情報が盗用されたことや、ましてやそれがどのように使われたかを認識していた者はひとりもいなかった。

驚くべきことに、そのなかにはハンク＆ジョン・グリーン兄弟の教育ビデオシリーズの中心である「Crash Course」（登録者数1,600万人、AIの訓練に使われた動画は871本）と「SciShow」（登録者数800万人、AIの訓練に使われた動画228本）のプロデューサーも含まれている。

「わたしたちが心を込めて制作した教育コンテンツが、同意なしにこのようなかたちで利用されていることを知って憤慨しています」と、これらの番組を制作したComplexlyのCEOのジュリー・ウォルシュ・スミスは声明で語っている。

しかし、クリエイティブ業界を悩ませた“問題”は、このYouTube Subtitlesを用いたAIの学習が初めてではない。

Proof Newsの寄稿者であるアレックス・ライズナーがEleutherAIのThe Pileのデータセットのひとつである「Books3」のコピーを入手したところ、マーガレット・アトウッド、マイケル・ポーラン、ザディ・スミスなどの著書を含む18万冊以上の書籍が盗用されていたことを発見したという。この調査結果が昨年の『The Atlantic』に掲載されて以降、多くの著者が作品の無断使用や著作権侵害でAI企業を訴えている。こうした訴訟が急増したことから、「Books3」をホスティングしていたプラットフォームは、このデータを削除した。

これらの訴訟に対してメタ・プラットフォームズやOpenAI、ブルームバーグといった被告側の企業は、自分たちの行為は「フェアユース（公正な利用）」に該当すると主張している。最初に書籍をスクレイピング（抽出）して公開したEleutherAIに対する訴訟は、原告によって自主的に取り下げられた。

ほかの訴訟はまだ初期段階にあり、承認と支払いをめぐる問題は未解決のままだ。のちにThe Pileは公式ダウンロードサイトから削除されたが、ファイル共有サービスでは入手可能なままになっている。

「テクノロジー企業は横暴な行為を続けています」と、法律事務所のDiCello Levittでパートナー弁護士を務めるエイミー・ケラーは言う。ケラーは消費者保護を専門とする弁護士で、AI企業に同意なく作品を盗まれたクリエイターの代理人として訴訟を起こしてきた人物だ。

「人々は自分に選択の余地がなかったという事実を懸念しています」と、ケラーは語る。「その点が本当に問題なのだと思います」。

クリエイターたちの懸念

多くのクリエイターは今後に不安を感じている。

「The David Pakman Show」のクリエイターであるパックマンは、TikTokを眺めていたときにAIの威力を目の当たりにしたという。「タッカー・カールソンのクリップ」とラベル付けされた動画を見つけて、それを視聴して驚かされたというのだ。

その動画の声は保守派政治コメンテーターであるカールソンの声のように聞こえたが、パックマンがYouTubeの番組で話したことと一字一句、リズムさえも同じだった。動画にコメントを投稿していた人々のなかで、それがフェイク動画であることや、カールソンの“声のクローン”がパックマンの原稿を読み上げていることに気付いていたの人が1人しかいなかったことも、彼を戦慄させた。

「これは問題になるでしょう」と、パックマンはフェイク動画に関して作成したYouTube動画で語っている。「これは基本的に、誰に対してもできてしまうことだからです」

EleutherAIの共同設立者であるシド・ブラックは、動画のスクリプトを流用してYouTube Subtitlesを作成したとGitHubに投稿している。このスクリプトは、YouTube視聴者のブラウザーが動画を視聴した際に字幕をダウンロードする場合と同じ方法で、YouTubeのAPIからテキストとしてダウンロードしていた。

GitHubにアップロードされた文書によると、ブラックは動画を抽出するために495の検索ワードを用いていたという。例えば、「おもしろいブイロガー（funny vloggers）」「アインシュタイン（Einstein）」「黒人プロテスタント（black protestant）」「社会福祉サービス（Protective Social Services）」「情報戦争（infowars）」「量子色力学（quantum chromodynamics）」「ベン・シャピロ（Ben Shapiro）」、「ウイグル人（Uighurs）」「果食主義者（フルータリアン、fruitarian）」、「ケーキレシピ（cake recipe）」「ナスカの地上絵（Nazca lines）」「地球平面説（flat earth）」などだ。

YouTubeの利用規約は「自動化された手段」による動画へのアクセスを禁じているが、このコードを2,000人以上のGitHubユーザーがブックマークまたは支持していた。

「YouTubeが本当にこのモジュールを阻止したいなら、いろいろな方法があります」と、機械学習エンジニアのジョナス・デポワはGitHub上のディスカッションに書き込んだうえで、YouTube Subtitlesにアクセスする際に使用したコードを公開した。「でも、いまのところ、そのようなことは起きていません」

このコードはデポワが数年前に大学生だったときにプロジェクトで書いたものだが、それ以降は使用しておらず、その便利さに人々が気付いたことに驚いていると、Proof Newsへのメールで説明している。YouTubeの規則に関する質問については、回答を拒否した。

グーグルの広報担当者はコメントの要請に対してメールで回答し、グーグルが「長年にわたって無許可の不正スクレイピングを防止するための措置を講じてきました」と説明している。他社が訓練データに動画を使用していることに関する質問への回答はなかった。

AI企業が使用した動画のなかには、15万人近いチャンネル登録者がいる「Einstein Parrot」の動画146本も含まれている。大型のインコであるヨウムの世話係を務めるマーシャ（この有名な鳥の安全を脅かすことを恐れて姓を明かしていない）は、物真似をするヨウムの言葉をAIモデルが取り込んだことを知った当初は、おもしろいと感じたという。

「誰がヨウムの声を使いたがるというのでしょう」と、マーシャは言う。「でも、ヨウムがとても上手に話せることは知っています。わたしの声で話せるんです。だからヨウムがわたしを真似して、AIがヨウムを真似しているということになりますね」

データがいったんAIに取り込まれると、学習データの削除はできない。マーシャは彼女の鳥の情報が「デジタルコピーヨウムの生成」や「悪態をつかせる」ことなど、知られざるさまざまな方法で利用される可能性を危惧していた。「わたしたちは未知の領域に足を踏み入れているのです」と、マーシャは言う。

（Originally published on wired.com, edited by Daisuke Takimoto)

※『WIRED』による生成AIの関連記事はこちら。

Related Articles

A red, yellow, blue, and green illustration of a child with the face cut out, a pixelated blue form in the same shape of the cut out, and a grid texture

AIの訓練に用いるデータセットに、子どもたちの写真が無断流用されていた

AIの訓練に用いられるオープンソースのデータセットに、ブラジルの子どもたちの画像170枚以上と詳細な個人情報が無断で流用されていたことが、人権NGOの調査で明らかになった。データは全体のごく一部であることから、同じような画像が世界中から収集された可能性が高いとみられている。

Pattern of red typewriters on blue background

AIによる記事データ学習、メディアが許可した場合のメリットは？

12月中旬、ドイツのメディア大手Axel SpringerがOpenAIとのライセンス契約を結んだ。この契約は、Axel Springerが所有するメディアの記事を、ChatGPTなどの製品に使用することを許可するものだ。

Shadow of a person operating a smartphone

あなたのデータがAIの学習に使われないようにする方法

一部のアプリでは、あなたのコンテンツが生成AIの学習に使われないように設定することができる。ChatGPTやグーグルのGeminiなどから（少なくとも多少は）主導権を取り戻す方法を紹介しよう。

雑誌『WIRED』日本版 VOL.53
「Spatial × Computing」好評発売中！

実空間とデジタル情報をシームレスに統合することで、情報をインタラクティブに制御できる「体験空間」を生み出す技術。または、あらゆるクリエイティビティに2次元（2D）から3次元（3D）へのパラダイムシフトを要請するトリガー。あるいは、ヒトと空間の間に“コンピューター”が介在することによって拡がる、すべての可能性──。それが『WIRED』日本版が考える「空間コンピューティング」の“フレーム”。情報や体験が「スクリーン（2D）」から「空間（3D）」へと拡がることで（つまり「新しいメディアの発生」によって）、個人や社会は、今後、いかなる変容と向き合うことになるのか。その可能性を、総力を挙げて探る！詳細はこちら。