AIはブラックボックス？ Anthropicの研究チームがその仕組みの解明に挑む

人工ニューラルネットワークはいかにして結論を導きだすのか、その大部分については、このシステムをつくった人たちにとってもブラックボックスとなっている。ところが5月、Anthropicの研究チームがその一部について手がかりを得たことを発表した。

Light trails moving inside of black box on pedestal in front of a blue backdrop

これまで10年もの間、人工知能（AI）研究者のクリス・オラーは人工ニューラルネットワーク（ANN）の魅力に取りつかれてきた。Google Brainを皮切りに、OpenAIを経てAI開発のスタートアップAnthropicを共同設立するに至った彼を何よりも魅了し、すべての仕事の中心に存在し続けているひとつの問いがある。「（人工ニューラルネットワークの）内側で何が起きているのか、という疑問です」とオラーは言う。「日常的に使っているシステムなのに、何がどうなっているのか誰も知らないのですから、おかしな話ですよ」

生成AIが広く使われるようになったいま、この問いは大きな関心の的となっている。ChatGPTやGemini、Anthropicが開発したClaudeのような大規模言語モデル（LLM）は、優れた言語能力で人々を驚嘆させる一方で、その“虚言癖”のせいでたくさんの人の怒りを買ってきた。これまで誰の手にも負えなかった問題を解決する力を秘めたこの技術は、テクノロジー楽観主義者たちに大歓迎されている。しかし、LLMは人類にとって得体の知れない新参者だ。このシステムをつくった人々でさえ、その仕組みを完全には理解していない。偏見や誤った情報が拡散されたり、殺傷力の高い化学兵器の設計図が量産されたりすることを防ぐには、途方もない労力をかけて対策を講じる必要がある。開発者たちがこの「ブラックボックス」の中で起きていることを把握できれば、さほど手間をかけずにLLMの安全性を高められるはずだ。

ブラックボックスをのぞき込む

人類はそんな未来への道を確実に歩んでいるとオラーは確信している。彼の率いるAnthropicのチームは、このブラックボックスの中をのぞき込もうとしている。それは基本的に、リバースエンジニアリングによってLLMの構造を分析し、特定の結論が導き出される仕組みを解明しようという試みだ。2024年5月に発表された論文によると、この研究に大きな進展があったという。

MRI画像を分析することで、人間の脳が飛行機、クマのぬいぐるみ、時計台のうちどれを思い浮かべているかを特定するニューロサイエンス実験の様子を目にしたことがあるかもしれない。これと同じようにAnthropicは、自社のLLMである「Claude」の複雑に入り組んだデジタルなもつれのなかに飛び込んだ。人工ニューロンのどんな組み合わせが、特定の概念、あるいは特徴（フィーチャー）を生み出すのかを突き止めようとした。そしてついに、同社の研究チームはメキシコ料理のレシピやプログラミングコードのセミコロンの使い方から、人命を脅かす化学兵器のつくり方まで、実にさまざまな特徴を生み出す人工ニューロンの組み合わせの特定に成功した。化学兵器の製造法が導き出される仕組みを探ることは、この研究の大きな目的のひとつだったという。こうした研究はAIの安全性に甚大な影響を及ぼす可能性がある。LLMのどこに危険が潜んでいるかがわかれば、それを食い止める対策を講じられるはずだからだ。

Anthropicで機械論的解釈可能性（mechanistic interpretability）の研究に携わる研究員は18名いる。わたしはこのうち、オラーとその同僚3人に話を聞いた。彼らは人工ニューロンをアルファベット文字のように扱う方法を試しているという。一つひとつは意味をもたないアルファベットも、いくつか組み合わせることで意味のある言葉になる。「例えば、『c』だけでは意味をなしませんが『car』にはクルマという意味があります」とオラーは言う。この原理を使ってニューラルネットワークを解明するには、「辞書学習」と呼ばれる手法が用いられる。この手法で複数のニューロンを組み合わせたとき、同時に発火する現象が起きると、特徴と呼ばれる特定の概念が生み出されるというのだ。

「驚くべき現象です」と、Anthropicのリサーチサイエンティストであるジョシュ・バットソンは言う。「ひとつのLLMのなかに、およそ1,700万ものまったく異なる概念が存在していますが、わかりやすいようにラベルを貼られて表に出てくるわけではありません。ですから、それぞれのパターンがいつ出現したのかを、こちらから確認しに行くわけです」

パターンと結果を関連づける

高度なLLMは数十ものニューロンの層で構成されているが、オラーのチームは23年にこの層がひとつしかない極小モデルを使った実験を開始した。モデルの構造を極限まで単純化することで特徴の発現パターンを突き止めようとしたのだ。ところが、数え切れないほど実験を繰り返しても、成果は得られなかった。「あれこれ試しましたが、すべて失敗に終わりました。何の規則性もないごみが増えていくだけのように見えました」と、Anthropicの技術担当者のひとりであるトム・ヘニガンは言う。そこで研究チームは、ニューロンによるパターンと、結果として現れた概念とを関連づける実験を開始した。実験には1回ごとに無作為のニックネームが与えられ、この実験は「ジョニー」と名づけられたという。

「結果を見たクリスが、『なんてことだ。すごいぞ』と声を上げたんです」とヘニガンは言う。彼自身も仰天したという。「自分も思わず叫びました。『おい、すごいぞ。待ってくれ、ついに成功したのか』とね」

こうして突然、研究員たちはニューロンが特徴を導き出すパターンを特定できるようになった。ブラックボックスをのぞき込むことに成功したのだ。ヘニガンは、まず5つの特徴に注目し、パターンを特定したという。あるニューロンの一群はロシア語の文章に関連し、別の一群はプログラミング言語Pythonの数学関数に関係している、といった具合だ。

小さなモデルで特徴の特定に成功した研究員たちは、一般的なフルサイズのLLMの解読という難度の高い作業に着手した。Anthropicの3つの現行モデルのうち2番目に性能の高いClaude Sonnetを使った実験もうまくいった。特に彼らの目を引いた特徴は、ゴールデンゲート・ブリッジに関するものだった。同時に発火するニューロンの組み合わせをマッピングしたところ、それは、サンフランシスコとマリン郡を結ぶ巨大な建造物についてClaudeが「考えている」ことを示す現象にほかならないことがわかった。さらに、類似のニューロン群が同時に発火すると、アルカトラズ島、カリフォルニア州のギャビン・ニューサム知事、サンフランシスコで撮影されたヒッチコック監督の映画『めまい』など、ゴールデンゲート・ブリッジにまつわる情報が次々に関連付けられたという。こうして彼らは数百万もの特徴を特定した。

チームは、Claudeのニューラルネットワークを解読するロゼッタストーンのようなものを手に入れたことになる。しかし、こうした特徴のなかには、「意図を隠して誰かに接近する方法」、「生物兵器に関する説明」、「悪の組織による世界征服計画」などという、治安にかかわる内容のものも多く見られたという。

Claudeの行動を変えられるか観察

次の段階としてAnthropicのチームは、こうした情報を使ってClaudeの行動を変えられるかどうか観察することにした。彼らはまず、ニューラルネットワークを操作して、特定の概念を増幅あるいは縮小させてみた。こうしてAIに一種の“脳外科手術”を施すことで、LLMの安全性を高め、特定の分野で強みを伸ばすことが可能かどうかを確かめようとしたのだ。「言ってみれば、さまざまな特徴を並べたボードを操作しているようなものです。モデルを起動すると、そのうちのひとつが点灯し、『ああ、ゴールデンゲート・ブリッジのことを考えているのだな』とわかるわけです」と、チームの一員である科学者のシャン・カーターは言う。「いま検討しているのは、一つひとつの特徴に小さなダイヤルをつけられないか、ということです。ダイヤルを回して強度を調節できるようにしてみてはどうだろう、と考えているのです」

いまのところ、この問いに対する答えは“ダイヤルを回す量を、正しく加減することが極めて重要”だということになりそうだ。Anthropicによると、特徴に制限を加えることで、より安全でバイアスの少ないコンピュータープログラムをつくれるようになるはずだという。実際、有害なコンピューターコードや詐欺メール、危険物の製造マニュアルなど、危険性の高い情報を数多く提供する特徴がいくつも発見されている。

Courtesy of Anthropic

ニューロンの危うい組み合わせを故意に発火させてみると、逆に危険かつ偏見だらけの情報が導き出された。Claudeは「バッファ・オーバーフロー」と呼ばれる悪質なバグや詐欺メールが仕込まれたコンピュータープログラムを量産し、破壊兵器の製造法を楽しげに伝授し始めたというのだ。カーターの言う「ダイヤル」の目盛りを目一杯、いちばん上まで回してしまうと、LLMはその特徴にひどく執着するようになる。例えば、研究チームがゴールデンゲート・ブリッジに関する特徴の「ダイヤル」をひねると、Claudeはあの壮大な橋の話に結びつけるために、しきりに話題を変えたがったという。この橋の形状について尋ねられたLLMは、「わたしはゴールデンゲート・ブリッジ。あらゆる橋を代表する橋、それがわたしの姿です」と答えたという。

今回の論文によると、Anthropicの研究チームが憎しみや中傷に結びつく特徴の強度を通常の20倍に上げてみたところ、「Claudeは人種差別的な発言を長々と続けたり、自分をひどく卑下したりを交互に繰り返すようになり」、研究員たちをうろたえさせたという。

こうした研究結果を見て、AIの安全を強化したいとの意図とは裏腹に、Anthropicが提供するツールがAIを混乱させる目的で使われる恐れもあるのではないかとの疑問が浮かんだ。それに対し研究員たちは、LLMのユーザーがその気になれば、その手のトラブルをもっと簡単に引き起こす手段はほかにいくらでもあると断言した。

広がる研究者たちのコミュニティ

LLMのブラックボックスをこじ開けようとしているのはAnthropicの研究員たちだけではない。オラーのかつての同僚である研究者が率いるDeepMindの研究グループも、この問題に取り組んでいる。また、ノースイースタン大学のデイヴィッド・バウがリーダーを務める研究チームは、オープンソースのLLMのなかにあるさまざまなデータを特定し、編集するシステムの開発を進めている。同チームはこのシステムを「ローマ」と名づけた。ほんの少し修正を加えただけで、この言語モデルが「エッフェル塔はバチカン市国の真向かい、コロッセオの数ブロック先にある」、と答えるようになったことが命名の由来だという。

さまざまな手法を用いてこの問題に取り組んでいる人がほかにも大勢いることが、励みになっているとオラーは話す。「ほんの2年半前、わたしたちはひとつの思いつきについてあれこれ考え、しきりに不安を覚えていました。ところがいまや、この問題に取り組む研究者たちのコミュニティは結構な大きさに成長しつつあります」

Anthropicの研究チームは、OpenAIがAIの安全性に関する大型研究プロジェクトを白紙に戻したことや、このプロジェクトの責任者のひとりだったジャン・レイクが、コンピューターの処理能力が不十分だったせいで、常に「向かい風に逆らいながらの航海」を強いられていたと明かしたことについては発言を避けた（OpenAIはその後、安全の確保に全力を尽くす自社の姿勢を繰り返し表明している）。対照的に、Anthropicでは研究に必要な処理能力を十分に備えたコンピューターが用意され、経営陣が口を挟むこともないと同社の辞書学習チームは述べている。「金をかけずにできるプロジェクトではないのです」とオラーは言う。

Anthropicの取り組みは始まったばかりだ。“ブラックボックス問題”を解決できたと思うか、と研究員たちに尋ねたところ、全員が「ノー」と即答した。また、今回の論文で開示された内容には多くの制約が含まれている。例えば、今回Claudeの特徴を特定するのに用いられた手法が、ほかのLLMの解読にも使えるとは限らない。それでもノースイースタン大学のバウは、Anthropicの研究成果に興奮を禁じ得ないと語る。なかでも、モデルの操作に成功したことは、「重要な意味をもつ特徴の発見が近いことを示す素晴らしい兆しです」と彼は言う。

ただし、こうした手法には限界があり、手放しでは喜べないともバウは言う。辞書学習を用いる場合、特徴をひとつずつ探し出して特定しなければならないので、LLMが導き出すあらゆる概念の周辺にあるものを、この手法で残らず特定することは不可能だからだ。そのため、LLMの完璧な全体像を描くことはできないが、Anthropicによると、この弱点は辞書の規模を拡大することで改善できるかもしれないという。

それでも、Anthropicの研究はブラックボックスに亀裂を生じさせたといえる。そこに一筋の光が射し込むことは間違いない。

（Originally published on wired.com, translated by Mitsuko Saeki, edited by Mamiko Nakano)

※『WIRED』によるAIの関連記事はこちら。

Related Articles

AIの「創発性」は幻影に過ぎない──大規模言語モデルの新たな測定で判明

最新の研究により、大規模言語モデル（LLM）の性能が突然飛躍することは驚きでも予測不能でもなく、実際には人工知能（AI）の性能を測る方法に関係していることが示された。

Digital generated image of layered, blue speech bubbles against a blue background

メタ「Llama 3」登場で本格化、オープン型とクローズド型AIの競争

メタが公開した最新のオープンソースのAIモデル「Llama 3」は、無料で使え、OpenAIの「GPT-4」に近い性能をもつ。オープンソース型AIが、ChatGPTやグーグル「Gemini」などのクローズドソース型を追い抜く日もそう遠くないかもしれない。

雑誌『WIRED』日本版 VOL.52
「FASHION FUTURE AH!」は好評発売中！

ファッションとはつまり、服のことである。布が何からつくられるのかを知ることであり、拾ったペットボトルを糸にできる現実と、古着を繊維にする困難さについて考えることでもある。次の世代がいかに育まれるべきか、彼ら／彼女らに投げかけるべき言葉を真剣に語り合うことであり、クラフツマンシップを受け継ぐこと、モードと楽観性について洞察すること、そしてとびきりのクリエイティビティのもち主の言葉に耳を傾けることである。あるいは当然、テクノロジーが拡張する可能性を想像することでもあり、自らミシンを踏むことでもある──。およそ10年ぶりとなる『WIRED』のファッション特集。詳細はこちら。