Google 検索のアルゴリズムが、AIによる“盗用”を元記事より上位に表示している

グーグルが検索結果から質の低いコンテンツを排除すべく、新たに「スパムに関するポリシー」を発表した。ところが「Google 検索」や「Google ニュース」の検索結果では、AIによる“盗用”のほうが元記事より上位に表示される事例が散見されている。
human hand reaching for robotic hand
Photograph: Kilito Chan/Getty Images

最近、「Google 検索」を使っていて奇妙な“既視感”を覚える記事に出くわした。

アドビの人工知能(AI)に関するポリシーについて最新情報を調べていて、Google 検索で「adobe train ai content(Adobe 訓練する AI コンテンツ)」と入力してから「ニュース」のタブに切り替えたときのことだ。検索結果の2番目に表示された『WIRED』US版の記事は、すでに読んでいた。検索結果の最上位にあった記事の発行元である「Syrus #Blog」については見覚えがなかったが、記事のタイトルを見たときに既視感に襲われたのである。

その記事へのリンクをクリックしてみると、表示されたのは盗用記事で溢れたスパムサイトだった。記事の体裁は変更されており、多くの記事の最上部にはAIが生成したイラストが使用されていた。

問題のスパム記事は『WIRED』の記事を丸ごとコピーしたもので、文面が僅かに変更されていた程度だった。元の記事で引用されていた部分も、そのままである。ウェブページの最後にあったリンクが『WIRED』の元記事につながっており、それが記事の帰属を示す唯一のものだった。

Google 検索で表示されたニュース記事のリスト。『WIRED』の記事の“偽物”がトップに表示され、オリジナルの記事は2番目に表示されていた。

Courtesy of Reece Rogers

このスパムサイトのボットは、英語の原文記事をコピーしていただけではなかった。盗用されたコンテンツは、ほかにも10の言語で作成されていたのである。日本語やスペイン語など、『WIRED』がコンテンツを作成している言語も多く含まれていた。

さらに、ロイターや「TechCrunch」などのメディアの記事も複数の言語で盗用され、同じようにAIが生成したイラストも掲載されていた。今回の調査を実施した6月下旬から7月上旬にかけて、問題のウェブサイト「Syrus」は「Google ニュース」の検索結果を不当に利用し、ユーザーがテック関連の検索ワードで検索した際に最初のページに表示されるようにしていたとみられる。

例えば、Google ニュースの検索窓から「competing visions google openai(競合する ビジョン Google OpenAI)」で検索すると、TechCrunchの記事が最上位に表示された。その下には、競合しているGoogleとOpenAIのAI開発手法を扱った『The Atlantic』ブルームバーグの記事がある。

ところが、信頼性の高いそれらのウェブサイトの直後の4番目には「Syrus #Blog」の記事があった。その内容は、最上位にある「TechCrunch」の記事の大部分をコピーしたものだった。

テック系ニュースサイト「404 Media」が1月に報じているが、Google ニュースで基本的な検索ワードで検索した際の結果には、AIが生成した記事が年初の段階で複数回にわたって登場していた。それから2カ月後、検索結果を改善する試みとしてグーグルは、アルゴリズムの大幅な変更や新たなスパムに関するポリシーを発表している。

そして4月末までに、検索エンジンのランキングシステムから有用ではない結果を取り除くための大規模な調整が完了したことを明らかにした。「4月19日の時点において、これらの変更作業を完了しました。オリジナルではない質の低いコンテンツが検索結果で45%削減されるとともに、この作業全体で40%の向上が期待されます」と、グーグルで製品管理を担当するディレクターのエリザベス・タッカーは公式ブログの投稿で説明している。

明らかになった“発信元”

こうした変更が実施されたにもかかわらず、Google ニュースにはAIの力で生み出されたスパムコンテンツがいまも蔓延している。

「この問題はGoogleにおいて相当に広がっていますが、具体的な原因を指摘することは困難でしょう」と、マーケティング会社のAmsiveでSEO(検索エンジン最適化)を担当するシニアディレクターのリリー・レイは言う。「『わたしたちの記事が盗まれてAIで処理されている。元のコンテンツとそっくりに見えるが、AIが書き直したでたらめな内容になっている』と訴えてくるクライアントもいるほどです」

一見したところ、イラストに描かれた人物は目が垂れており、身体のそのほかの部分も変形している。そうした特徴から、Syrusのブログの画像の一部はAIが生成したものであることは明らかだった。AIが人間の体を表現しようとした痕跡がありありと見てとれる。

それでは『WIRED』の記事の文章は、AIによって書き直されたのだろうか? ブログの記事が作成された経緯をさらに知るために運営者にコンタクトしたところ、イタリアのマーケティング会社がブログを作成したという回答がメールで寄せられた。そして、執筆プロセスの一環としてAIツールを使用したことを認めた。

「盗用ではないかとのご懸念に関して、わたしたちのコンテンツ作成プロセスには確かにAIツールが使用されています。これらのツールは常に知的財産を尊重しながら、さまざまな情報源から情報を分析し、合成しています」と、「Daniele Syrus」を名乗る人物は記している。

この人物は盗用記事の最後にあるリンクの存在を示したうえで、それが十分な帰属表示になっていると主張している。何もないよりはましだが、発行元の名前すら示していないリンクは盗用に対する十分な対策とはいえない。この「Daniele Syrus」を自称する人物は、ウェブサイトの目的はGoogleの検索エンジン経由でクリック数を稼ぐことではなく、複数の言語でAIアルゴリズムを試すことにあると主張している。

この件についてグーグルにメールで問い合わせてみたが、Syrusに関しては回答しないとのことだった。「わたしたちは特定のウェブサイトについて回答いたしません。しかし、更新されたスパムに関するポリシーにおいて、Googleでのランキングを上げる目的でオリジナルではない価値の低いコンテンツを大量に生み出すことを禁止しています」と、グーグルの広報担当のミーガン・ファンズワースは説明している。「わたしたちのポリシーを遵守していないサイトに対しては世界的に対策をとっています」(なお、ファンズワースは『WIRED』の元スタッフである)。

グーグルのスパムに関するポリシーを見てみると、問題のブログは「無断複製されたコンテンツ」に関する規定に明らかに違反するように思える。ポリシーにはこう記されている。

「不正な複製の例としては、次のようなものが挙げられます:他のサイトのコンテンツをコピーし、(語句を類義語に置き換えたり自動化された手法を使用したりして)若干の修正を加えたうえで転載しているサイト」

なお、問題のブログがグーグルのポリシーに違反しているかどうか、また今回の記事の内容に基づいてGoogle ニュースの検索結果でランキングを下げるかどうか、ファンズワースは断言しなかった。

最大の課題

元の記事の執筆者たちは、著作物を適切に守るために何ができるのだろうか。できることは明確ではない。しかし、SEOの専門家と意見を交わした後、1本の大きな“筋”が立ち現れた。それは包括的な不安感でもある。

「わたしたちの業界はある種のトラウマを背負っていて、そのことで冗談を言う気にもなれないのです」と、オンラインのリンク構築サービスを手がけるForte Analyticaでコンサルタントを務めるアンドリュー・ボイドは言う。「その主な理由のひとつは、影響を受けた発行元だったとしても頼る場所がないことだと思います。ある朝、目覚めると50%のトラフィックがなくなっているのですから」

ボイドによると、グーグルの長期間に及ぶ検索アルゴリズムの更新において、訪問者の大多数を失ったウェブサイトもあるという。

グーグルによる最大規模の変更に透明性が欠けていることについて、多くのSEO専門家が憤慨している。だが、検索結果におけるスパムの蔓延については、話を聞いた全員が批判的というわけではなかった。

「グーグルは十分な功績を上げていませんが、最大の課題がスパムなのです」と、SEOに関する著書があるイーライ・シュワルツは言う。「いまのGoogle 検索の品質には多くの不満が寄せられていますが、ハードウェアを探していたはずがアダルトサイトに行き当たる……といったことはありません。グーグルは十分に仕事をしているのです」

実際のところグーグルは、スパム対策として小規模な検索のアップデートを実施し続けている

確かに、ポルノとは関係ない一般的な言葉で検索した際に、Google 検索で怪しげなポルノサイトが表示されるようなことはない。そうした意味で、グーグルはユーザーにまっとうな体験を提供している。しかし、盗用された役に立たないコンテンツを、世界で最大規模の力をもつ企業(オンラインコンテンツの創出や配布、消費に相当の影響を有する)がニュースの検索結果から取り除くことを期待したとして、それは妥当といえるだろう。

「わたしたちは正しいことをしようとしていますが、このような質の低いAIコンテンツに圧倒される例を数多く目撃しています。いら立たしい状況ですね」と、Amsiveのレイは言う。「これが一時的なものであることを願っていますが、業界内では多くの緊張関係や対立が生まれてしまっています。このような状況は個人的にこの15年間で初めてです」

AIコンテンツを含むスパムサイトが検索結果から排除されない限り、発行元は高品質なコンテンツを制作する気にはなかなかなれないはずだ。そして、Google ニュースの上位に表示されるウェブサイトに対する信頼感も下がってしまうだろう。

(Originally published on wired.com, edited by Daisuke Takimoto)

※『WIRED』によるGoogle 検索の関連記事はこちら


Related Articles
Yellow web browser window divided into three sections on a light purple background; two sections contain multicolored bars and one section contains multicolored spheres
グーグルがスパムに関するポリシーを改訂し、AIが生成した「クリックベイト(釣り記事)」を検索結果から排除する方針を打ち出した。これにより、粗悪なコンテンツが検索で表示されづらくなる効果が期待されている。
Image of a student writing at a desk and another student hovering over behind him, copying his work
検索結果の概要をAIが生成して表示するGoogle 検索の「AI Overviews」で、検索ワードに対して生成された概要の文章に『WIRED』の記事が“盗用”されていた。いったいどういうことなのか?
Liz Reid
グーグルは検索サービスにAIを統合していくことで、その仕組みの再構築を加速させている。そうしたなか、検索におけるAIの台頭という“世界秩序の変化”に、どう対応していくのか。検索部門の責任者であるエリザベス・リードが語った。

雑誌『WIRED』日本版 VOL.53
「Spatial × Computing」 好評発売中!

実空間とデジタル情報をシームレスに統合することで、情報をインタラクティブに制御できる「体験空間」を生み出す技術。または、あらゆるクリエイティビティに2次元(2D)から3次元(3D)へのパラダイムシフトを要請するトリガー。あるいは、ヒトと空間の間に“コンピューター”が介在することによって拡がる、すべての可能性──。それが『WIRED』日本版が考える「空間コンピューティング」の“フレーム”。情報や体験が「スクリーン(2D)」から「空間(3D)」へと拡がることで(つまり「新しいメディアの発生」によって)、個人や社会は、今後、いかなる変容と向き合うことになるのか。その可能性を、総力を挙げて探る! 詳細はこちら