AI検索「Perplexity」の記事盗用疑惑を独自調査──無断スクレイピングで回答を生成か

『Forbes』は自社のコンテンツを盗用されたとして、AI検索スタートアップのPerplexityを非難した。『WIRED』が調べたところ、Perplexityのチャットボットは許可を得ていないサイトを無断でスクレイピングし、“幻覚”を見せる傾向があることが明らかになった。
Animation: Jacqui VanLiew; Getty Images

AI検索スタートアップのPerplexityは大きな野望をもち、ジェフ・ベゾスのファミリーファンドやNVIDIA、著名な投資家であるバラジ・スリニヴァサンなどから出資を受けている。しかし、このAI検索スタートアップが実際に何をしているのかは驚くほどわかっていない。

『Forbes』記事を盗用した疑惑

Perplexityの最高経営責任者(CEO)を務めるアラヴィンド・スリニヴァスは2024年初頭、『WIRED』に対して自社製品は「“回答”エンジン」であると説明していた。ユーザーの質問に対して自然言語の回答を提供し、インターネットにリアルタイムでアクセスできるチャットボットだと言ったのだ。その数週間後、同社の評価額を10億ドルに押し上げる資金調達ラウンドを発表する直前、スリニヴァスは『Forbes』に対して「WikipediaとChatGPTの子どものような製品です」と説明した。そして『Forbes』が同社のコンテンツを盗用したとしてPerplexityを非難した後に実施された先日のAP通信の取材には、同社の製品は「情報のアグリゲーター」にすぎないとスリニヴァスは話したのである。

関連記事:グーグル検索をディスラプトする──AI検索「Perplexity」創業者がライバル視する同郷スンダー・ピチャイ

Perplexityのチャットボットの回答はより具体的だった。自身について説明するよう指示すると、Perplexityはこう答えた。「Perplexity AIは、従来の検索エンジンとチャットボットの機能を組み合わせたAI搭載の検索エンジンです。最新の記事から情報を取得し、ウェブを日々インデックス化することで、ユーザーの質問に対して簡潔な回答をリアルタイムで提供します」

Perplexityはこれを実現するために、ウェブサイトの運営元がボットのアクセスを禁止している領域から、こっそりと情報をスクレイピングしていることが、『WIRED』と開発者のロブ・ナイトがそれぞれ実施した調査によって判明した。Perplexityは広く採用されている「ロボット排除プロトコル(Robots Exclusion Protocol )」の規約を尊重していると主張しているにもかかわらず、これを無視しているようなのだ。『WIRED』の調査から、Perplexityに関連するマシン(具体的にはAmazonのサーバー上にあり、Perplexityが操作していることがほぼ確実なもの)が、WIRED.comや、『WIRED』と同じコンデナストに所属するほかのメディアのコンテンツをスクレイピングしていることが判明したのである。

Perplexityのツールは「情報源や出典をすべて提示した上で、どんな質問にも即座に信頼できる回答を提供する」とし、「関連のないコンテンツのリンクをクリックする必要をなくす」と謳っている。だが、『WIRED』の調査結果は、出典を適切に明記しジャーナリストによる報道を正確に要約できる同社のチャットボットは、技術的な意味で「でたらめを出力する」傾向があることを示すものだった。

『WIRED』による調査とCEOの声明

『WIRED』は、今年『WIRED』のウェブサイトに掲載された数十の記事の見出しをPerplexityに読み込ませ、記事に関する質問をチャットボットに投げかけた。その結果、チャットボットは『WIRED』の元記事に近い表現で内容を言い換えたり、不正確に要約したり、最小限の出典しか明示しない場合があることがわかった。カリフォルニア州の警官が犯罪を犯したと『WIRED』が報じたとする誤情報を含む回答が生成されることもあった(AP通信も同様に、チャットボットが実在の人物の発言を捏造した事例を説明している)。

『WIRED』独自の記事と画像を掲載しているサイトにアクセスしていることは明らかなようだが、『WIRED』のサーバーログにはPerplexityが公開しているIPアドレスに該当する識別可能な痕跡は残されていなかった。このことからPerplexityのシステムが実際、どのように機能しているのかについての疑問が生じた。

Perplexityは今週初めまで、クローラーが使用しているIPアドレスの一覧へのリンクを説明資料に掲載していた。透明性を高めることを意図しての施策である。しかし、『WIRED』とナイトの両方の調査が示したように、PerplexityはPerplexity Botと呼ばれる同社のクローラーをブロックしようと対策が施されたウェブサイトにアクセスし、情報をスクレイピングしているようなのである。公開されていないIPアドレスが少なくともひとつは使用されている。Perplexityはその後、説明資料にあったIPアドレスの一覧への言及を削除した。

一覧になかったIPアドレス(44.221.181.252)は、過去3カ月間でコンデナスト傘下のサイトに少なくとも822回アクセスしている。コンデナストのシニアエンジニアは「この件に関与したくない」として匿名での取材を希望した。コンデナストはネットワークログの一部しか保存していないことから、これは実際より「大幅に少ない数字」であると、シニアエンジニアは語っている。

『WIRED』は新しいウェブサイトを作成しサーバーログを監視することで、問題のIPアドレスがほぼ確実にPerplexityに関連するものであることを確認している。『WIRED』の記者がPerplexityのチャットボットに対して新しいウェブサイトに掲載されている記事の内容を要約するよう指示した直後に、このIPアドレスがサイトを訪れたことがサーバーに記録されたのである。ナイトが同様のテストを実施した際にも、このIPアドレスを見つけていた。

チャットボットが指示に対して回答する前に、特定の情報元を「読んでいる」ことを示す表示がユーザーインターフェースに現れる。しかし、ニュース記事を直接要約しないこともある。記事の抜粋やメタデータなどURLや検索エンジンに残された痕跡に基づいて記事の内容を推測し、関連記事に直接アクセスして内容を要約したものとして提示している可能性が高いのだ。

すると公言したことをせず、しないと公言したことをする。このようにして、Perplexityは10億ドルの価値へ上り詰めたということになるのだろうか。

この記事で解説している調査結果についてスリニヴァスに説明を求めたところ、彼は次のような声明を発表した。「『WIRED』の質問には、Perplexityとインターネットの仕組みに関する根本的な誤解があります」。とはいえ、この声明は『WIRED』の調査結果の具体的な点に関して異議を唱える内容ではなかった。『WIRED』やナイトの調査結果に異議があるかどうかについて追加の質問をしたが、スリニヴァスから回答は得られていない。

“新機能”への厳しい眼差し

『Forbes』は6月6日、グーグルの元CEOエリック・シュミットの新しいベンチャーが積極的に人材を採用し、軍事目的に使われる可能性のあるAI搭載ドローンをテストしているという調査記事を掲載した(シュミットはコメントを差し控えたとForbesは報じている)。

Forbesの編集者であるジョン・パチコウスキーはその翌日、Perplexityが実質的に、この記事の一部をそのまま含む盗用記事を公開したとXに投稿している(「記事の大部分が盗用された」とし、「わたしたちの記事と、この記事を引用した複数のブログ投稿を、非常に見落とされやすい方法で出典として記載している」と指摘した)。

同日、スリニヴァスはパチコウスキーの指摘に感謝し、Forbesの独自報道の内容をまとめた特定の製品の機能には「荒削りな部分」があると説明した。また、出典をもっと目立たせる必要があることにも同意している。この3日後、PerplexityはForbesに2番目に多くのリファラルトラフィックをもたらしているサイトであるとスリニヴァスは誇らしげに宣言していた(結果的に、これは誤りであることが判明している)。(『WIRED』のデータでは、Perplexityは5月に1,265のリファラルトラフィックをWIRED.comにもたらしたが、サイト全体のトラフィックで見ると取るに足らない。最も多くのトラフィックがあった記事のビュー数は17だった)。

「新しいパブリッシャー・エンゲージメント製品と、メディア企業との長期的なインセンティブを一致させる取り組みを進めており、近いうちに発表する予定です。乞うご期待!」とスリニヴァスは書いている。

スリニヴァスの言葉の意味はすぐに明らかになった。Perplexityが「権威あるパブリッシャーと収益分配契約の提携に動いている」と、Semaforが報じたのだ。これはPerplexityとパブリッシャーの両方が、パブリッシャーが力を入れている報道から利益を得られるようにする取り決めである。Axiosによると、Forbesの法務の最高責任者は6月下旬にスリニヴァスに手紙を送り、誤解を招く記事の削除と、著作権侵害と見られる要約の投稿で得た広告収益を同社に支払うよう求めている。

「どのように」情報収集しているかが問題

Perplexityが「何」をしているかに焦点を当てたくなることは理解できる。しかし、それは「どのように」しているのかという、それよりもさらに重要な問題をうやむやにしてしまう。

「何をしているか」は重要な争点ではない。Perplexityはニュース記事を要約することで利益を得ている。これはニュースが誕生したときから行なわれており、条件付きではあるものの広範な法的保護の対象となっている。スリニヴァスは、要約の作成にあたり内容のすべて、あるいは大部分を参照した出典元を十分に記載できていない場合があることを認める一方、より広範な意味で道徳に反する、または違法な行為については否定している。Perplexityは「どこからもコンテンツを盗んでいません」とスリニヴァスはAP通信に語った。「他社のコンテンツを使ってAIエンジンを訓練したことはありません」

これはある意味、奇妙な反論だ。なぜなら、この点については誰も異議を唱えていないからである。Perplexityの主力製品は、大量のデータで訓練する必要がある大規模言語モデル(LLM)ではなく、そのようなシステムを“包む”サービスである。『WIRED』の2人の記者が試したように、20ドルの「Pro版」の月額利用料を支払うユーザーは、5つのAIモデルから使いたいものを選択できる。そのひとつはPerplexity独自のモデルである「Sonar Large 32k」だが、これはメタ・プラットフォームズのAIモデル「LLaMa 3」を基盤としたものだ。ほかのものはOpenAIやAnthropicが提供していて、すぐに「入手可能な」モデルである。

ここで「どのように」の部分が重要になってくる。ユーザーがPerplexityにクエリを入力すると、チャットボットは自社のデータベースを参照するだけでなく、Perplexityがマーケティング資料で宣伝している「ウェブへのリアルタイムアクセス」を活用して情報を収集し、それをユーザーが選択したAIモデルに送信して回答を生成する。

その過程でPerplexityは自社のモデルを訓練し、指示を正確に読み取る点で「高度なAI」を活用していると説明している。とはいえ、Perplexityを「AIスタートアップ」と言うのはやや誤解を招きかねない。既存のAIシステムにくっついているコバンザメのようなものであるという方が正確かもしれないからだ(「Perplexityは基盤モデルを訓練していませんが、わたしたちがAI企業であることは確かです」とスリニヴァスは『WIRED』に語っている)。

クローラーをブロックできない

Perplexityのチャットボットは基本的に、『WIRED』の記事を要約できないようになっている。なぜなら、今年初めに『WIRED』のエンジニアが「robots.txt」というファイルを通じてPerplexityのクローラーをブロックしたからだ。このファイルは、クローラーにサイトのどの部分を避けるべきかを指定するもので、Perplexityはrobots.txtを尊重すると主張している。しかし、『WIRED』の調査結果から、『WIRED』の記事の見出しや特定の記事に基づく質問をチャットボットに入力すると、たいていの場合、記事の細かい部分まで捉えた内容が生成されることが明らかになったのである。

例えば、この『WIRED』独自記事(英語記事)の見出しをチャットボットのインターフェースに入力すると、キアヌ・リーブスとSF作家のチャイナ・ミエヴィルによる小説の共同執筆に関する基本的な情報を含む4段落の文章が生成される。「当初はコラボレーションの可能性に対し懸念を抱いていたものの、リーブスはミエヴィルと仕事をすることに前向きになった」とあり、文章の末尾には灰色の円が表示された。この円にカーソルを重ねると記事へのリンクが表示される。これには『WIRED』が許諾を得て記事に使用している写真が添えられており、画像をクリックすると出典元と元の記事へのリンクが表示される(WIREDのデータを見ると、Perplexityによる記事の要約が公開されて以来、6人のユーザーが元記事に飛んで来ている)。

同様に、「一部の安価な有線ヘッドフォンはBluetoothで接続しているのですか?」とPerplexityに質問すると、『WIRED』の記事をまとめたかのような2段落からなる要約とともに、元記事で使用されている画像が表示された。「これは詐欺ではありませんが、人によっては欺瞞的、または独創的な回避策と感じるかもしれません」と要約には書かれている。これは『WIRED』の元記事の表現に近い(「これが“詐欺”なのかといえば、技術的にはそうではない。見方によっては「だまそうとしている」とも、ある種の独創的な“ハック”ともいえるだろう」と記事を執筆したブーン・アシュワースは書いた)。人間の編集者や弁護士にとっては受け入れられないほど似た表現だが、この点についてチャットボットに質問すると、単なる偶然という回答が返ってきた。

「いいえ、文章を盗用したわけではありません」と『WIRED』の記者の質問に対してチャットボットは回答している。「文章表現の類似は偶然のものであり、このような難しい状況を説明する言葉が共通しているということです」。記事に登場するヘッドフォンの製品名以外における“言葉の共通性”をPerplexityがどのように捉えているかはわからない。Perplexityがここで引用している出典は『WIRED』の記事と掲示板サイトSlashdot上の議論のみだった。

許可なくスクレイピングをしている?

開発者であるロブ・ナイトの発見とその後の『WIRED』による調査結果は、裏で起きていることを部分的に説明している。簡単に言えば、Perplexityは許可なくウェブサイトをスクレイピングしているということだ。

自身が運営に携わっているサイトMacstories.netのサーバーからAIボットを排除するために、robots.txtを活用する以外にも対策を施した、とナイトは説明する。403 forbidden(403エラー)を出すことで理論上はクローラーをブロックできるので、それをサーバー側のコードに追加したのだ。その後、どのような対策を施したかを説明する記事を投稿し、Perplexityのチャットボットにその記事を要約するよう指示した。すると「単に推測することでは書けない、さまざまな詳細を含む完全な要約」が出力されたのである。

ナイトが「一体どんな仕組みなんだ?」と疑問に思うのは当然だった。

ナイトがサーバーログを調べると、Perplexityがrobots.txtのファイルを無視し、ファイアウォールを回避していることを見つけた。おそらく、会社が公開していないIPアドレスのサーバーで動作する自動化されたウェブブラウザがスクレイピングに使用されている。「これらのヘッドレスブラウザは、PerplexityのIPアドレスの範囲にないようなので、それらをブロックすることすらできません」とナイトは書いている。

ナイトが見つけたIPアドレス(44.221.181.252)のサーバーは、ユーザーが特定のウェブページについて質問すると、robots.txtの中身に関係なく、オンデマンドでそのページを訪れ、情報をダウンロードしていることを確認できた。 コンデナストのシステムログを調べたエンジニアによると、このIPアドレスはコンデナストのコンテンツに数千回も無断でアクセスしていた可能性がある。

スクレイピングを禁止しているウェブサイトをスクレイピングすることは、会社や個人に法的リスクをもたらす可能性がある。ただし、これに関連する判例法は曖昧で、基本的には公開されているウェブサイトにアクセスする側にとって有利だ。(「この法の領域は複雑です」と電子フロンティア財団の監視訴訟ディレクターであるアンドリュー・クロッカーは話す。「これに関する訴訟は多くあります」)。

とはいえ、開発者のナイトは今回の調査結果に「憤慨している」と話す。「事業を続けるために、疑わしいことをするインセンティブがある。そういったAI関連企業による巨大な産業ができてしまっています」とナイトは『WIRED』に語る。「そうした会社からのアクセスであることを特定しなければ、企業は制限なくデータを収集し続けるでしょう」

一方、スリニヴァスは「何百万人もの人々がPerplexityを使っている理由は、根本的に優れた方法で人々に答えを提供できているからです」と話していた。

チャットボットがみせる“幻覚”

ナイトと『WIRED』の調査結果は、Perplexityがアクセス許可のないウェブサイトのコンテンツを訪れ、使用していることを示しているが、これは特定の記事の質問に対する曖昧な回答や、ほかの不正確な回答の原因を説明するものではない。とはいえ、この謎の原因はかなりはっきりしている。このチャットボットはそもそも記事を要約していない場合があるのだ。

ある実験で、『WIRED』は「わたしはWIREDの記者です」という一文を含むテスト用のウェブサイトを作成し、Perplexityにこのページの内容を要約するよう指示した。ウェブサイトのサーバーログを監視していても、Perplexityがこのページを訪れた形跡は見当たらなかった。するとチャットボットは、アメリアという名前の少女が「ウィスパー・ウッズ」という魔法の森で光るキノコの道を進むという物語を生成したのである。

話をでっち上げた理由を質問すると、チャットボットは次のように回答した。「あなたの指摘の通りです。あなたがサーバーログで観測した通り、提供されたURLのコンテンツを実際に読み込むことを試みませんでした。実際のコンテンツを読むこともせずに不正確な要約を提供することは、わたしのようなAIにとって許されない行為です」

チャットボットがなぜ突飛な物語を創作したのか、またなぜウェブサイトにアクセスしようとしなかったのかはわからない。正確性と信頼性を主張しているにもかかわらず、Perplexityのチャットボットは同じような間違いを頻繁に起こしている。例えば、『WIRED』の記者がこの記事(英語記事)にPerplexityがアクセスできるかどうかを試したところ、チャットボットは男性がトラックのタイヤを盗んだ後、ドローンに追われる内容だと回答した(実際に男が盗んだものは斧だった)。また、チャットボットが提示した出典元は、クルマに取り付けられた政府のGPSトラッカーが発見されたという13年前の『WIRED』の記事だった(英語記事)。さらに質問したところ、このチャットボットは、カリフォルニア州チュラビスタにある警察署の警官がガレージから自転車を2台盗んだと『WIRED』が報じたと主張するテキストを生成した(『WIRED』はそのようなことは書いておらず、犯していない犯罪と結びつけられないよう警官の名前は伏せている。)

チュラビスタ警察署の副署長を務めるダン・ピークは、メールで「内容を訂正し」、警官が市民のガレージから自転車を盗んでいないことをはっきりさせたことに対して『WIRED』に感謝の意を表した。とはいえ、警察署はこの技術について詳しくないので、これ以上のコメントはできないと付け加えている。

情報の断片から記事内容を推測か

これらはチャットボットが「ハルシネーション(幻覚)」を起こしている、またはグラスゴー大学の3人の哲学者が投稿した最近の記事の表現を借りれば、「でたらめ」な内容をでっちあげている明らかな例だ。ハリー・フランクフルトの名著『On Bullshit』で説明されているような、でたらめな話が生成されているのである。「これらのプログラムは真実を気にしないこと、そして真実を考慮せずにもっともらしいテキストを生成するよう設計されていることから、その出力は“でたらめ”と言うことが適切でしょう」と著者たちはAIシステムについて書いている。

(「回答が100%正確ではなく、幻覚が起きる可能性があることを率直に伝えてきました」とスリニヴァスは話す。「とはいえ、正確性とユーザー体験の継続的な改善が、わたしたちのミッションの中核にあります」)

しかし、Perplexityのチャットボットが記事にアクセスしたのなら、記事の内容をでっちあげる必要はない。従って、記事にアクセスしておらず、ほかの場所で見つけた関連資料から内容を推測することがあると考えるのが妥当である。

最も可能性の高い情報源は、グーグルのような検索エンジンに提出、あるいは収集されたURLやデジタルな情報の断片である。これはゴミ箱からかき集めた余り物や切れ端の味を確認して、どのような料理だったかを説明するようなものだ。

Perplexityのウェブサイトに公開されている仕組みの説明と、情報収集のワークフローに関連した質問に対するPerplexityの回答が、この推理を支持している。質問を解析すると、Perplexityのチャットボットは「クローラーを展開し、ブロックされているサイトは避けます」と説明した。

「また、PerplexityはGoogle 検索やBingのような検索エンジンを活用して情報を収集することもあります」としている。少なくともこの点に関しては、人間とまったく同じだ。

(Originally published on wired.com, translated by Nozomi Okuma, edited by Mamiko Nakano)

※『WIRED』による生成AIの関連記事はこちら


Related Articles
Shadow of a person operating a smartphone
一部のアプリでは、あなたのコンテンツが生成AIの学習に使われないように設定することができる。ChatGPTやグーグルのGeminiなどから(少なくとも多少は)主導権を取り戻す方法を紹介しよう。
Liz Reid
グーグルは検索サービスにAIを統合していくことで、その仕組みの再構築を加速させている。そうしたなか、検索におけるAIの台頭という“世界秩序の変化”に、どう対応していくのか。検索部門の責任者であるエリザベス・リードが語った。

雑誌『WIRED』日本版 VOL.53
「Spatial × Computing」

実空間とデジタル情報をシームレスに統合することで、情報をインタラクティブに制御できる「体験空間」を生み出す技術。または、あらゆるクリエイティビティに2次元(2D)から3次元(3D)へのパラダイムシフトを要請するトリガー。あるいは、ヒトと空間の間に“コンピューター”が介在することによって拡がる、すべての可能性──。それが『WIRED』日本版が考える「空間コンピューティング」の“フレーム”。情報や体験が「スクリーン(2D)」から「空間(3D)」へと拡がることで(つまり「新しいメディアの発生」によって)、個人や社会は、今後、いかなる変容と向き合うことになるのか。その可能性を、総力を挙げて探る!詳細はこちら