「小型AIモデル」はコンピューティングの未来になるか?

マイクロソフトの最新研究によると、性能に大きな妥協をせずに、スマートフォンやノートPCで動作する小型AIモデルを作成できることが示されている。この技術は、AIの新たな使い道を切り拓く可能性を秘めている。
Abstract 3D render of a transparent smartphone with chat bubbles hovering over the surface while it rests on a blue surface
Illustration: Just_Super/Getty Images

ChatGPTは当初、クラウド経由でしか使えなかった。それを動かしているモデルが非常に大きかったからだ。ところがいまでは、ChatGPTのモデルと同程度の能力をもつAIプログラムをMacbook Airで実行できるうえに、端末が熱をもつこともない。このようなAIモデルの小型化は、研究者らがいかに迅速にAIモデルを洗練させ、小型化と効率化を進めているかを示している。同時に、規模を大きくすることだけが、機械の知能を著しく高める唯一の方法ではないことも。

小型AIモデル「Phi-3-mini」の性能

わたしのノートPCにChatGPTのような機転と知恵を与ているのは、小型言語モデル「Phi-3-mini」だ。マイクロソフトの研究者が最近公開した、一連の小型AIモデルのひとつである。スマートフォンで動くほど小さいが、今回はノートPCで実行した。そしてChatGPTの公式アプリに似たチャットインターフェイスを提供する「Enchanted」というアプリを使い、iPhoneからアクセスして試している。

「Phi-3」の一連のモデルを説明する論文によると、今回わたしが使用したモデルは、ChatGPTのサービスが最初の公開時に使用していたOpenAIのAIモデルである「GPT-3.5」に匹敵する性能をもっていると、マイクロソフトの研究者たちは説明している。この主張は、常識や推論を測定するいくつかの標準的なAIベンチマークの性能測定に基づいたものだ。実際に試してみたところ、確かに同等の性能を発揮しているように感じた。

Will Knight via Microsoft

マイクロソフトは5月下旬に開催された年次の開発者会議「Microsoft Build」で、音声、動画、テキストを処理できるマルチモーダルな「Phi-3」の新モデルを発表した。この発表の数日前には、OpenAIグーグルがクラウド経由で利用できるマルチモーダルモデルに基づいた画期的なAIアシスタントを発表している。

マイクロソフトの一連の小型AIモデルは、クラウドに依存しない便利なAIアプリの構築が可能になりつつあることを示している。この技術により、モデルの応答性を高めたり、あるいはユーザーのプライバシーを守れたりするようになることで、AIの用途はさらに拡がる可能性がある(マイクロソフトはAIを使用してPC上の過去のすべての操作を検索可能にする「Recall」の機能を「Microsoft Build」で発表した。この機能では、オフラインで使用できるアルゴリズムが重要な部分を担っている)。

情報を選んで与え、性能を高める

「Phi-3」の一連のAIモデルは、現代のAIの性質と、それをどのように改善できるかについて示唆を与えてくれる。今回のプロジェクトに携わったのは、マイクロソフトの研究者、セバスチャン・ビューベックだ。彼はこれらのAIモデルが、システムを訓練する際に使う情報を慎重に選ぶことで、AIモデルの能力を微調整できるかどうかを検証するためにつくられたのだと話した。

チャットボットなどのサービスを支えるOpenAIの「GPT-4」やグーグルの「Gemini」のような大規模言語モデル(LLM)は通常、書籍やウェブサイトといった入手可能なあらゆる情報源から抽出した大量のテキストを使って訓練されている。これは法的な問題を引き起こしているものの、OpenAIをはじめとする企業はAIモデルに供給するテキストの量と、訓練に使用する計算処理力を増やすことで、モデルの性能を高められることを明らかにしたのである。

一方で、言語モデルが示す“知能”の性質に関心があるビューベックは、モデルに供給するデータを注意深く選別することで、訓練データを大幅に増やさずに性能を高められないか検証した。

昨年9月、ビューベックのチームはOpenAIのGPT-3.5の約17分の1に相当するモデルを訓練した。このモデルの訓練には、プログラミングなど特定の分野の情報を含む、より規模の大きいAIモデルを使って生成した高品質で正確なデータを使用した。その結果、AIモデルはその規模にしては驚くべき能力を示した。「驚いたことに、この技術を使用したモデルは、プログラミングでGPT-3.5を打ち負かすことができたのです」とビューベックは言う。「これには本当に驚きました」

マイクロソフトのビューベックのグループは、このアプローチを通じてほかの発見もした。ある実験では、童話で訓練した非常に小さなモデルでも、一貫して整合性のある内容を生成できることが明らかになった。通常、小規模なAIプログラムは従来の方法で訓練すると意味不明な結果しか出力できない。しかしこの実験結果は、適切な教材で訓練すれば見かけ上はさほど強力ではないAIソフトウェアも、有用なものにできることを示している。

アップルはAIモデルの小型化に焦点?

これらの結果は、AIシステムをさらに賢くするためには、単に規模を大きくするだけでは不十分であることを示していると、ビューベックは話す。また、「Phi-3」のようなAIモデルの小型化が、未来のコンピューティングにおいて重要な特徴となる可能性も高い。スマートフォン、ノートPC、PCでAIモデルを「ローカルに」実行できれば、クラウドにクエリを送信する場合に発生する遅延や障害を減らせるのだ。

さらに、この仕組みはデータがデバイス上にとどまることを保証する。つまり、デバイスのOSと密接に連携するAIアプリなど、クラウド経由のモデルにはできない新しいことにも、AIを使えるようになる可能性がある。

アップルは6月に開催予定の開発者会議「WWDC」で、長らく期待されていたAI戦略を発表することが予想されている。同社は以前から、独自のハードウェアとソフトウェアにより、デバイスのローカル上で機械学習を実行できるようになると主張していた。OpenAIやグーグルに真っ向から対抗して、ますます巨大なクラウドAIモデルを構築するのではなく、同社は“発想を転換”してAIを小型化し、顧客のポケットに収まるようにすることに焦点を当てるかもしれない。

Will Knight via Microsoft

(Originally published on wired.com, translated by Nozomi Okuma)

※『WIRED』による人工知能(AI)の関連記事はこちら


Related Articles
Digital generated image of layered, blue speech bubbles against a blue background
メタが公開した最新のオープンソースのAIモデル「Llama 3」は、無料で使え、OpenAIの「GPT-4」に近い性能をもつ。オープンソース型AIが、ChatGPTやグーグル「Gemini」などのクローズドソース型を追い抜く日もそう遠くないかもしれない。
The Apple logo on the exterior of an Apple store building with a yellow overlay effect
アップルが、テキストや画像を扱える「MM1」と呼ばれる新しいマルチモーダルなAIモデルに関する論文を発表した。この研究内容からは、生成AI分野で出遅れていたアップルが巻き返しを測る可能性も指摘されている。
Illustration of a robot eating public domain text
OpenAIは、著作権で保護されたコンテンツを使うことなしに優れたAIモデルをつくるのは「不可能」だと主張する。だが著作権侵害のない大規模言語モデル(LLM)の登場や、パブリックドメインのデータセットの活用が進む現状は、逆の事実を示している。

編集長による注目記事の読み解きや雑誌制作の振り返りのほか、さまざまなゲストを交えたトークをポッドキャストで配信中!未来への接続はこちらから