ChatGPTの開発元であるOpenAIは6月上旬、同社の人工知能(AI)の開発手法に関して批判を浴びることとなった。同社の元従業員らが、人類に害を及ぼす可能性のある技術をリスクの高い方法で開発しているとOpenAIを糾弾したからである。
これを受け、OpenAIは6月6日(現地時間)に新たな研究論文を公開した。同社はモデルの中身を検証しやすくすることで、AIに伴うリスクに真剣に向き合っていることを示そうとしているようだ。この論文で同社の研究者たちは、ChatGPTを動かすAIモデルの中身を覗く方法を説明している。つまり、誤動作を引き起こす可能性のあるものを含め、AIモデルがいくつかの概念をどのように保存しているかを特定する方法を考案したのである。
論文の共著者に退職した2人の名前
この論文からは、OpenAIが制御すべきAIをより可視化された状態にしようとしていることがうかがえる。その一方で、昨今の社内の混乱ぶりまで浮き彫りにしている。今回の論文は、同社が最近解散した「スーパーアラインメント」チームが主導したものだ。このチームの目的はAI技術の長期的リスクを研究することだった。
チームの元共同責任者であるイルヤ・サツキヴァーとヤン・ライケが論文の共著者に名前を連ねているが、どちらもすでにOpenAIから離れている。OpenAIの共同創業者でありチーフサイエンティストであったサツキヴァーは、昨年11月に最高経営責任者(CEO)であるサム・アルトマンの解任に賛成票を投じた取締役のひとりでもある。この投票により同社は数日間の混乱に陥ったが、最終的にアルトマンはCEOに復帰した。
AIモデルの仕組みは簡単に検証できない
ChatGPTは、人工ニューラルネットワークとして知られる機械学習の手法に基づいて構築された、「GPT」と呼ばれる一連の大規模言語モデル(LLM)によって動作している。この数学的ネットワークは、訓練データを分析することで、タスクをこなす方法を学ぶ優れた能力を発揮する。しかし、従来のコンピュータープログラムのように、その動作を簡単に検証することはできない。人工ニューラルネットワーク内の「ニューロン」の層の間で複雑な相互作用が起きているからだ。従って、ChatGPTのようなシステムがある指示に対して回答を生成した方法を、リバースエンジニアリングで特定することは非常に難しいのだ。
「人間が発明したほかの多くの技術と違い、ニューラルネットワークの動作は実のところよく理解できていないのです」と、この研究を進めた研究者たちは論文を発表したブログ投稿に書いている。
著名なAI研究者には、ChatGPTを含む強力なAIモデルが化学兵器や生物兵器の設計やサイバー攻撃の計画立案に使われてしまう危険性があると考える人もいる。長期的な懸念は、AIモデルが目標を達成するために人間から情報を隠したり、危険な行動を取ったりするかもしれないことだ。
OpenAIが今回発表した論文は、AIモデルの未知の部分を減らすために用いられた手法について説明している。具体的には別の機械学習モデルを使用して、機械学習システム内の特定の概念を表すパターンを特定する技術だ。この技術の重要なイノベーションは、AIモデルの内部を解析するネットワークを洗練させることで、特定の概念の識別を効率化した点にある。
OpenAIは、同社の最大のAIモデルである「GPT-4」のもつ概念のパターンを明らかにすることで、これを実証している。同社は今回、解釈可能性の解明に関連するコードと視覚化ツールも公開している。このツールはGPT-4などのモデル内で文中の言葉が、冒涜的および性的な内容を含め、どのように物事の概念をかたちづくっているかを示すものだ。モデルが特定の概念をどのように表しているかを知ることで、AIシステムの望まない振る舞いに関連する要素を抑え、逸脱した行動をとらせないようにする方法が見つかるかもしれない。また、特定の題材やアイデアを優先するようAIモデルを調整できるようになる可能性もある。
AIの解釈可能性についての研究
LLMの動作を簡単に調べることはできないが、指示することで有用な情報を引き出せることが複数の研究により明らかになってきている。OpenAIの競合でアマゾンとグーグルが出資しているAnthropicは、AIモデルの解釈可能性(AIがその予測や判断をするに至った仕組みを、人間が理解できる度合い)に関する同様の研究を5月に発表している。AIモデルの振る舞いを調整する方法を示すために、同社の研究者たちはサンフランシスコのゴールデンゲートブリッジの話ばかりをするチャットボットを作成した。そして、LLMにその理由を説明するよう指示することで、ときどき洞察を引き出せたのである。
「これはエキサイティングな進展です」と、ノースイースタン大学の教授であり、OpenAIでAIの解釈可能性の研究を率いているデイビッド・バウは話す。「この分野全体で、これらの大規模モデルをよりよく理解し、精査する方法を見つける必要があります」
今回の論文における重要なイノベーションは、大規模なモデルの構成要素を理解するために使える小規模なニューラルネットワークを効率的に構築する方法を示したことにあると、バウは話す。ただし、この技術を信頼性の高いものにするには改良の余地があるとも、バウは指摘する。「この方法で包括的かつわかりやすい説明を提供できるようになるまでには、やるべきことがまだたくさんあります」と話す。
バウは米政府が資金提供している取り組みである「National Deep Inference Fabric」にも関わっている。この取り組みは、特に強力なAIモデルを学術研究者も調査できるよう、クラウドコンピューティングのリソースを研究者らに提供することを目的としている。「大企業に所属していない科学者たちでも検証できるようにする必要があります」とバウは話す。
OpenAIの研究者たちは、この技術の改善にはさらなる取り組みが必要であることを認めると同時に、この研究がAIモデルを制御する実践的な方法の解明につながることにも期待していると論文に記している。「いつの日か、AIの解釈可能性を高めてモデルの安全性と堅牢性の仕組みを理解し、その振る舞いのあり方を保証することで、強力なAIモデルが人々の信頼を得られるようになることを望んでいます」と書かれている。
(Originally published on wired.com, translated by Nozomi Okuma, edited by Mamiko Nakano)
※『WIRED』によるOpenAIの関連記事はこちら。人工知能(AI)の関連記事はこちら。