Google DeepMindの新しいAIロボットは、“賢い機械”が物理世界でも活躍する未来を先取りしている

Google DeepMindが、映像などの視覚情報も理解できるマルチモーダルなAIを搭載したロボットを披露した。その能力は、大規模言語モデル(LLM)が物理的な世界においても威力を発揮し、有用な仕事をこなせるようになる未来を先取りしている。
A multipleexposure photo of a binary code and the Google DeepMind logo
Photograph: Jakub Porzycki/NurPhoto/Getty Images

カリフォルニア州マウンテンビューにある雑然としたオープンオフィスで、背が高く細身で車輪の付いたロボットが、大規模言語モデル(LLM)の大幅なアップデートのおかげでツアーガイド役や非公式のアシスタントとして忙しく働いている──。そんなロボットの存在を、Google DeepMindが7月11日(米国時間)に明らかにした

このロボットはグーグルのLLMである「Gemini」の最新バージョンによってコマンドを解析し、周囲を探索する。例えば、人間から「どこか書くところを探して」と言われると、その指示を受けたロボットはオフィスの中を移動し、真っ白なホワイトボードへと案内してくれる。

その“頭脳”である最新のGeminiは、映像と文章を理解するマルチモーダルな能力をもつ。オフィス内を探索した映像からも大量の情報を取り込めるので、これらに基づいてロボットは周囲の環境を把握し、常識的な推論を必要とする指示を与えられたときに正しく人を案内できるわけだ。また、Geminiとアルゴリズムを組み合わせたことで、人間からの指示や目の前に“見える”ものに応じて、とるべき具体的な行動(旋回など)をとるようになっている。

昨年12月にグーグルが「Gemini」を発表した際、Google DeepMindの最高経営責任者(CEO)のデミス・ハサビスは『WIRED』のインタビューに対し、テキストや音声、画像、動画にも対応するマルチモーダルな能力が新たなロボットの能力を引き出すだろうと語っていた。さらにハサビスは、このモデルを用いたロボットの可能性について、Google DeepMindの研究者たちがテストを重ねているとも説明している。

プロジェクトの概要について記した新しい論文において研究者たちは、このロボットが人間を案内する際に最大90%の信頼性をもつことが証明されたと述べている。例えば、「コースターをどこに忘れたかな?」といった複雑な問いかけをされてもだ。このシステムについて研究チームは、「人間とロボットのインタラクションの自然さを大幅に高め、その使い勝手を大幅に向上させた」と記している。

Courtesy of Google DeepMind
Photograph: Muinat Abdul; Google DeepMind

LLMが物理的な世界へと入り込む

このロボットが端的に示していることは、LLMが物理的な世界へと入り込み、有用な仕事をこなせるようになる可能性があるということだ。

グーグルの会話型AI「Gemini」などのチャットボットは、そのほとんどがウェブブラウザーやアプリで動作する。だが、最近はグーグルOpenAIが示したように、視覚や聴覚による入力まで扱えるマルチモーダルなものになりつつある。実際にハサビスは今年5月、スマートフォンのカメラを通して見たオフィスのレイアウトを理解できるGeminiの最新版を披露している

こうしたなか学術界と産業界の研究所は、ロボットの能力を向上させるために言語モデルをどのように利用できるかを競っているところだ。ロボット研究者に人気のイベントである「ロボット工学とオートメーションに関する国際会議」(ICRA)の今年5月のプログラムには、視覚言語モデル(VLM)に関連する約20本の論文が並んでいた。

投資家たちは、AIによる進歩をロボット工学に応用しようと試みるスタートアップに資金を注いでいる。例えば、グーグルのプロジェクトに関わった研究者の一部が退社後に立ち上げたPhysical Intelligenceというスタートアップは、7,000万ドルの資金提供を受けた。Physical IntelligenceはLLMと実世界におけるトレーニングを組み合わせることで、ロボットに一般的な問題解決能力をもたせようとしている。カーネギーメロン大学のロボット工学者が設立したSkild AIも同様の目標を掲げており、7月に3億ドルの資金調達を発表した。

ロボットが人間を上手に案内するためには、ほんの数年前までは周囲の地図と慎重に選択されたコマンドが必要だった。これに対してLLMには、物理的な世界に関する有用な情報が含まれている。また、 その新しいバージョンともいえる視覚言語モデルは、テキストに加えて画像や映像でも学習されたもので、知覚が求められる質問にも回答することが可能だ。

実際にGoogle DeepMindのロボットは、音声だけでなく視覚による指示にも対応する。ホワイトボードに描かれたルート案内の図をカメラで捉えて、マルチモーダルなGeminiが解析する仕組みだ。

研究者たちは論文において、このシステムをさまざまな種類のロボットでテストする予定だと説明している。また、Geminiはより複雑な質問にも対応できるはずだという。例えば、机の上にコーラの空き缶がたくさんあるユーザーからの「わたしが好きなドリンクはありますか?」という問いに答える──といったことだ。

(Originally published on wired.com, translated by Daisuke Takimoto)

※『WIRED』による人工知能(AI)の関連記事はこちらGoogle DeepMindの関連記事はこちら


Related Articles
Person wearing blue frame glasses and a suit standing in front of a dark blue background
グーグルのチャットボット「Bard」内で使えるようになった新たなAIモデル「Gemini」。Google DeepMindのCEOであるデミス・ハサビスは今後、真にマルチモーダルなAIを生み出すため、ロボット工学との組み合わせを模索していると話す。
Person wearing a navy suit and sitting in an orange chair while speaking on stage
グーグルが「Gemini」を公開したのは23年12月。それからわずか2カ月で、そのアップグレード版である「Gemini Pro 1.5」が公開された。今後のAIの進化に不可欠な要素とは? Google DeepMindのCEO、デミス・ハサビスに話を訊いた。
Photo of presenters at the  OpenAI's event
OpenAIが新しいAIモデル「GPT-4o」を発表した。この新しいモデルで「ChatGPT」が動作することで、チャットボットとのスムーズかつ自然な音声会話が実現するという。その様子は、これまで以上に“感情”が豊かで人間を思わせるものだ。

雑誌『WIRED』日本版 VOL.53
「Spatial × Computing」 好評発売中!

実空間とデジタル情報をシームレスに統合することで、情報をインタラクティブに制御できる「体験空間」を生み出す技術。または、あらゆるクリエイティビティに2次元(2D)から3次元(3D)へのパラダイムシフトを要請するトリガー。あるいは、ヒトと空間の間に“コンピューター”が介在することによって拡がる、すべての可能性──。それが『WIRED』日本版が考える「空間コンピューティング」の“フレーム”。情報や体験が「スクリーン(2D)」から「空間(3D)」へと拡がることで(つまり「新しいメディアの発生」によって)、個人や社会は、今後、いかなる変容と向き合うことになるのか。その可能性を、総力を挙げて探る! 詳細はこちら