2024.07.11

さらに高度なAIを実現すべく、OpenAIは人間のトレーナーを支援するAIモデルを開発している

AIモデルの進化は人間のトレーナーたちからのフィードバックに基づく強化学習（RLHF）に支えられているが、この作業をAIで支援する取り組みをOpenAIが進めている。ChatGPTのような会話型AIを、さらに賢く信頼性の高いものにしていくことが目的だ。

3D rendering of multicolored glowing speech bubbles in front of a blue background

会話型AI「ChatGPT」をとてつもない成功に導く鍵になった要素のひとつは、その裏側で人工知能（AI）モデルに出力の“よし悪し”を教える大勢の人間のトレーナーたちの存在だ。OpenAIは、このトレーナーたちの仕事を支援するために多くのAIを投入することで、ChatGPTをさらに賢く、さらに信頼性が高いものにできるかもしれないと考えている。

OpenAIはChatGPTの開発において、RLHF（人間のフィードバックによる強化学習）利用の先駆者となった。この技術はAIモデルの出力がより一貫性をもち、好ましくない内容が減り、より正確になるよう人間のテスターからの入力に基づいてAIモデルを微調整するシステムだ。

つまり、AIモデルの“ふるまい”を形成するアルゴリズムは、人間のトレーナーがAIモデルの出力に対して下す評価から学習する。この技術はチャットボットの信頼性と利便性を高めるうえ、好ましくない動作を防ぐ点でも極めて重要であることがわかっている。

「RLHFは非常によく機能しますが、いくつかの重大な制約があります」と、OpenAIでこの取り組みに携わっている研究者のナット・マカリーズは言う。まずひとつは、人間のフィードバックは往々にしてムラがあることだ。そして高いスキルをもった人間であっても、洗練されたソフトウェアコードのように極めて複雑なアウトプットの評価は難しい場合がある。また、このプロセスは、実際には正確でなくても一見して説得力があるように思える出力をするように、AIモデルを最適化する危険性もあるだろう。

そこでOpenAIは、コードの評価を任務とする人間のトレーナーを支援する目的で、OpenAIの最も強力なAIモデルである「GPT-4」にファインチューニングを施した新たなモデルを開発した。社内で「CriticGPT」と呼ばれるこの新しいモデルは、人間が見逃したバグも発見できることが明らかになっている。

しかも、判定を下す人間のトレーナーたちは、63％の場面においてCriticGPTによるコード評価のほうが優れていると認めた。この手法をOpenAIは、将来的にコード以外にも展開することを検討している。

「わたしたちは、この技術をRLHFのチャット群に組み込む作業を始めています」と、マカリーズは語る。ただし、CriticGPTは“幻覚”によるミスを起こすこともあるので、この手法には不完全な点もあるとマカリーズは指摘する。それでも、この技術が人間によるトレーニングのミスを減らすことで、OpenAIのモデルやChatGPTなどのツールの正確性を高めるうえで役立つとも説明する。

また、人間が自身の能力を超えるAIを訓練する作業を支援できる可能性もあることから、この仕組みはAIモデルを現在よりはるかに賢くするうえで極めて重要になるかもしれないと、マカリーズは語る。「こうしてAIモデルが能力を高めていくなかで、（訓練に携わる）人間もさらに支援を必要とするようになるのではないかと、わたしたちは考えています」と、マカリーズは言う。

AIをトレーニングする手法の進歩が加速

この新しい技術は、大規模言語モデル（LLM）を改良して最大限の能力を発揮させるために開発されているさまざまな技術のひとつだ。また、AIが能力を高めていっても容認可能な範囲で動作することを担保するための取り組みの一部でもある。

OpenAIの元従業員たちが立ち上げたライバル企業のAnthropicは今年6月、トレーニングの手法と学習データを改良して能力を高めた会話型AI「Claude」の新バージョンを発表した。AnthropicとOpenAIは最近、虚偽をはじめとする望ましくない動作を防ぐことを目的として、出力がどのように生成されるのかを理解するための新たなAIモデルの検証方法をアピールしている。

この新しい技術は、さらに強力になるAIモデルをOpenAIが訓練し、その出力がより信頼できて人間の価値観に沿ったものであることを保証するうえで役立つかもしれない。特に、この技術をコード以外の領域にも展開できたとしたら、なおさらだろう。

OpenAIは次の大型AIモデルを訓練中であることを明らかにしており、好ましくない動作をしないよう制御することに真剣に取り組む姿勢を積極的にアピールしている。この動きは、AIの長期的なリスク評価を専門的に担っていた「スーパーアライメントチーム」の解散を受けてのことだが、このチームの共同責任者のひとりはOpenAIの共同創設者で元取締役のイルヤ・サツキヴァーだった。

サツキヴァーは、OpenAIの最高経営責任者（CEO）であるサム・アルトマンを一時的に会社から追放した後に撤回し、アルトマンが再び権力の座に就くプロセスを支援した人物である。スーパーアライメントチームのメンバー数人は、OpenAIが強力なAIアルゴリズムの開発と商業化を急ぐあまりリスキーな動きに出たとして、OpenAIを批判している。

マサチューセッツ工科大学（AI）教授でAIアライメントの手法を研究しているディラン・ハドフィールド＝メネルによると、AIモデルを用いてさらに強力なAIモデルを訓練するというアイデアが生まれてからしばらく経つという。「こうした動きは、ごく自然なことです」と、ハドフィールド＝メネルは言う。

またハドフィールド＝メネルは、RLHFに用いられる技術を開発した研究者たちが数年前にも似たようなアイデアを議論していたと指摘する。この考え方にどれだけの汎用性があるのか、どれだけ強力なのかは、まだ未知数であるとハドフィールド＝メネルは言う。

「個々の能力の飛躍的な伸びにつながる可能性があります。長期的に見ると、より効果的なフィードバックのようなものを実現していく第一歩になるかもしれません」

（Originally published on wired.com, edited by Daisuke Takimoto)

※『WIRED』による人工知能（AI）の関連記事はこちら。OpenAIの関連記事はこちら。

Related Articles

OpenAIの謎のプロジェクト「Q*」の正体とは？渦巻く疑問と不安、そして見えてきたヒント

OpenAIの「Q*（Qスター）」と呼ばれる極秘プロジェクトの存在が話題になっている。難解な問題を強力な新しい手法で解決する可能性があるというが、その正体はいったい何なのか。報道や専門家の意見から読み解いた。

OpenAIの「スーパーアライメントチーム」が解散、超人間的なAIの制御を目指す取り組みはどうなる？

人間を圧倒的に上回る能力をもつAIの登場を見据えて、高度なAIを制御する技術の開発を目指していたOpenAIの「スーパーアライメントチーム」が解散したことが、『WIRED』の取材で明らかになった。

OpenAI、ChatGPTの仕組みを覗き見る“手がかり”を公開

元従業員らに技術開発の姿勢を糾弾された数日後、OpenAIはAIモデルの仕組みに関する研究論文を発表した。同社はAIモデルを検証しやすくし、技術に伴うリスクに真剣に向き合っていることを示そうとしているようだ。

雑誌『WIRED』日本版 VOL.53
「Spatial × Computing」好評発売中！

実空間とデジタル情報をシームレスに統合することで、情報をインタラクティブに制御できる「体験空間」を生み出す技術。または、あらゆるクリエイティビティに2次元（2D）から3次元（3D）へのパラダイムシフトを要請するトリガー。あるいは、ヒトと空間の間に“コンピューター”が介在することによって拡がる、すべての可能性──。それが『WIRED』日本版が考える「空間コンピューティング」の“フレーム”。情報や体験が「スクリーン（2D）」から「空間（3D）」へと拡がることで（つまり「新しいメディアの発生」によって）、個人や社会は、今後、いかなる変容と向き合うことになるのか。その可能性を、総力を挙げて探る！詳細はこちら。