アマゾンのクラウド部門であるアマゾン ウェブ サービス(AWS)は、AI検索スタートアップPerplexityに対する調査を開始した。Perplexityが実施している、ボットのアクセスを禁止するウェブサイトへのスクレイピング行為が、AWSの規則に違反するかどうかが焦点となっている。
Perplexityのスクレイピングの手法に関する『WIRED』の問い合わせを受け、AWSがPerplexityの調査を開始したことを、同社の広報担当者であるパトリック・ネイホーンは認めた。ジェフ・ベゾスのファミリーファンドとNVIDIAが出資し、先日30億ドルの評価を受けたPerplexityが、「ロボット排除プロトコル」という一般的なウェブのルールによってボットのアクセスを禁止しているウェブサイトのコンテンツを取得していることを、『WIRED』が発見したのは先日のことだ。:「ロボット排除プロトコル(Robots Exclusion Protocol)」には、一般的な利用規約にあるような法的拘束力はない。
ロボット排除プロトコルは数十年前からあるウェブの標準的な仕様だ。ドメインにプレーンテキストファイルを設置する(例えば、wired.com/robots.txt)ことで、自動化されたボットやクローラーのアクセスを禁止するページを指定できる。スクレイピング用のボットを使う企業はこれを無視することもできるが、ほとんどの企業は通常、プロトコルを尊重している。AWSの顧客はウェブサイトをクロールする際にrobots.txtの規約に従わなければならないと、ネイホーンは『WIRED』に語った。
「AWSの利用規約は虐待的および違法な活動を禁止しており、顧客はこれらの規約に従う責任があります」とネイホーンは声明で伝えている。「違反の疑いに関する報告は、さまざまな情報提供者から定期的に寄せられており、内容を確かめるために顧客と協力しています」
『WIRED』によるボットの調査
『Forbes』が6月11日に公開した記事が、Perplexityへの調査が開始される発端となった。この記事は、Perplexityが『Forbes』の少なくとも1本の記事を盗用したと非難するものだった。『WIRED』はそれが実際に行なわれたこと、そしてPerplexityのAIを活用した検索チャットボットと関係のあるシステムによるスクレイピングの乱用とコンテンツ盗用のさらなる証拠を見つけている。
『WIRED』の親会社であるコンデナストのエンジニアは、robots.txtのファイルを使用して同社のすべてのウェブサイトでPerplexityのクローラーをブロックしている。しかし、Perplexityは非公開のIPアドレス(44.221.181.252)を使用してサーバーにアクセスし、過去3カ月間に少なくとも数百回もコンデナストの所有するコンテンツをスクレイピングしていたことが、『WIRED』の調査で明らかになったのだ。
Perplexityに関連するマシンは、ボットによるコンテンツのアクセスを禁止しているニュースサイトを広範囲にクロールしているようだ。『The Guardian』、『Forbes』、『The New York Times』の広報担当者も、このIPアドレスが繰り返し同社のサーバーを訪れていることを検出したと伝えている。
AWSが規約違反か調査を開始
『WIRED』は、このIPアドレスがAWSでホストされているAmazon Elastic Compute Cloud (Amazon EC2)のインスタンスとして知られる仮想マシンに関連していることを突き止めた。AWSのインフラを使って、ボットのアクセスを禁止しているウェブサイトをスクレイピングすることは、AWSの利用規約に違反するかどうかについて『WIRED』が問い合わせた後でAWSはPerplexityの調査を開始している。
6月下旬、Perplexityの最高経営責任者(CEO)を務めるアラヴィンド・スリニヴァスは『WIRED』の質問に対し、「Perplexityとインターネットの仕組みに関して、深く根本的な誤解が含まれています」と回答していた。これが『WIRED』の調査結果に対する同社の最初の反応だった。スリニヴァスはその後、『WIRED』が発見した非公開のIPアドレスは、ウェブサイトのクロールとインデックスサービスを提供するサードパーティ企業によって運営されていると『Fast Company』に語っている。スリニヴァスは機密保持契約を理由に会社名を明かすことは差し控えた。『WIRED』のクロールをやめるようサードパーティ企業に伝えるかどうか尋ねられると、スリニヴァスは「難しい問題です」と答えている。
アマゾンの問い合わせには6月26日に回答し、調査は標準的なものだったとPerplexityの広報担当者を務めるサラ・プラトニックは『WIRED』に語った。アマゾンの懸念に対し、Perplexityが運営方法を変更することはないと、プラトニックは話している。
「AWS上で動くPerplexityBotはrobots.txtを尊重しており、Perplexityが制御するサービスがAWSの利用規約に違反するかたちでクロールしていないことを確認しました」とプラトニックは話す。しかし、ユーザーの指示に特定のURLが含まれている場合、PerplexityBotはrobots.txtを無視することがあると付け加えている。ただし、これは「非常に稀なケース」とプラトニックは話した。
「ユーザーが特定のURLを含む指示をしても、クロールが行なわれることはありません」とプラトニックは続けた。「エージェントはユーザーの代わりにURLを取得します。この動作は、ユーザー自身がページにアクセスし、記事の文章をコピーしてシステムに貼り付けることと同じです」
このPerplexityの機能に関する説明は、同社のチャットボットが特定の場合にrobots.txtを無視するという『WIRED』の発見を裏付けるものでもある。
生成AIの運用に関する原則に違反
Digital Content Nextは『The New York Times』、『The Washington Post』、コンデナストを含むデジタルコンテンツを扱う産業の業界団体だ。昨年、同団体は潜在的な著作権侵害を防ぐことを目的に、生成AIの運用に関する原則を公開している。Perplexityにまつわる疑惑が事実であるならば、同社はこの原則の多くに違反していると、Digital Content Next のCEOを務めるジェイソン・キントは『WIRED』に語る。
「AI企業は基本的に、パブリッシャーのコンテンツを無断で取得し再利用する権利はないと考えるべきです」とキントは話す。Perplexityがサービス利用規約やrobots.txtを掻いくぐっているなら、「何か不適切なことが起きているという警鐘が鳴らされるべきです」とキントは付け加えた。
(Originally published on wired.com, translated by Nozomi Okuma, edited by Mamiko Nakano)
※『WIRED』による生成AIの関連記事はこちら。
雑誌『WIRED』日本版 VOL.53
「Spatial × Computing」
実空間とデジタル情報をシームレスに統合することで、情報をインタラクティブに制御できる「体験空間」を生み出す技術。または、あらゆるクリエイティビティに2次元(2D)から3次元(3D)へのパラダイムシフトを要請するトリガー。あるいは、ヒトと空間の間に“コンピューター”が介在することによって拡がる、すべての可能性──。それが『WIRED』日本版が考える「空間コンピューティング」の“フレーム”。情報や体験が「スクリーン(2D)」から「空間(3D)」へと拡がることで(つまり「新しいメディアの発生」によって)、個人や社会は、今後、いかなる変容と向き合うことになるのか。その可能性を、総力を挙げて探る!詳細はこちら。