モバイル環境のすべてが「Gemini」で一新される:グーグル幹部、AIが駆動するAndroidの進化を語る

グーグルの開発者会議「Google I/O」では、AIを活用した新機能が次々に発表されている。モバイルOSであるAndroidには、今後どのような進化がもたらされるのか。グーグルの幹部ふたりに尋ねてみた。
Google Android mascot and screenshots
Courtesy of Google

いまから10年近く前、グーグルは「Android 6.0 Marshmallow」の「Now on Tap」という新機能を披露した。ホームボタンを長押しすると、画面上のコンテンツに関連する有用な情報が表示される機能だ。

例えば、メッセージで友人と映画の話をしているときにNow on Tapを使えば、メッセージアプリの画面のままその映画の情報を入手できる。Yelpでレストランを探しているなら、画面をタップするだけでOpenTableのおすすめが表示される、といった具合だ。

当時、この「Google Now」の機能向上にわくわくさせられ、魅了された。画面上のコンテンツを理解し、ユーザーの操作を予測する機能には未来的な感覚が漂っていたのだ。Androidのなかでもお気に入りの機能のひとつだったこの機能は、徐々に「Google アシスタント」に移行した。Google アシスタント自体がすばらしい機能だが、何もかも同じではない。

カリフォルニア州マウンテンビューで開かれている開発者会議「Google I/O」でグーグルがアピールしているAndroid OSの新機能は、かつてのNow on Tapのような印象だ。ユーザーは周囲の状況に関する情報を活用し、スマートフォンをほんの少し簡単に活用できるようになる。ただし、今回の機能は過去10年間の大規模言語モデル(LLM)の進歩によってパワーアップしている。

「(今回の発表で)エキサイティングなことは、本当にエキサイティングなアシスタントをつくり上げるテクノロジーが手に入ったことだと思います」と、グーグルでAndroidのエンジニアリング担当バイスプレジデントを務めるデイヴ・バークがビデオ通話での取材に語る。「自分で見ている対象を理解できるコンピューターシステムを手に入れる必要がありますが、当時はそのような動作を上手にこなせるテクノロジーは存在しなかったと思います。でも、現在は存在するのです」

こうしたなか、Androidに関する最新情報や、グーグルの新しいAIアシスタントである「Gemini」、そしてGeminiがOSの将来に及ぼす影響ついて、このほどバークとAndroidのエコシステム担当プレジデントであるサミール・サマットに話を聞く機会を得た。これらの変化についてサマットは、「スマートフォンに可能なことがらを刷新し、Androidのすべてを再考する一世代に一度の機会」であると言う。

「かこって検索」が宿題も理解する

まずは「かこって検索」だ。これはモバイル検索に対するグーグルの新しいアプローチとなる。

グーグルが数カ月前に発表した「かこって検索」は、Now on Tapの体験とよく似ているが、単に検索ボックスへの入力というよりは対話型に近い(画面上の検索対象を言葉の通りに丸で囲む)。「これは非常に直感的で楽しい最新の検索手法です。非常に楽しく使えるので若者にも合っています」と、バークは語る。

サマットによると、グーグルは消費者からの肯定的なフィードバックを得ており、「かこって検索」の最新機能は特に学生のフィードバックに基づいているという。「かこって検索」は物理や数学の問題に使用できるようになり、ユーザーが丸で囲むと問題に正答するための手順が出力される。その間もユーザーは、アプリにとどまったままでいい。

Geminiは単に解答を与えるわけではなく、問題の解き方を学生に提示するのだとサマットは明確に指摘する。「かこって検索」は今年後半には、図やグラフのような複雑な問題にも正答できるようになる。すべては教育用にチューニングされたグーグルの言語モデル「LearnLM」のおかげだ。

進化した「かこって検索」が動作する様子。

Courtesy of Google

Geminiの認識力が高度になる

GeminiはGoogle アシスタントを多くの点で凌駕するグーグルのAIアシスタントだ。最近はほとんどのAndroidスマートフォンでGoogle アシスタントを起動すると、Geminiに置き換える選択肢が表示される。そこで当然ながらバークとサマットに、Google アシスタントが“墓場”に向かっているという意味なのかと尋ねてみた。

「これに関していえば、Geminiはスマートフォンのオプトイン体験であると言えます」と、サマットは語る。「Geminiが徐々に高度化し、進化していることは明らかだと思います現時点で発表できることは何もありませんが、消費者のみなさんにはAIを活用したこの新しいアシスタントをオプトインする(意思をもって受け入れる)選択肢が与えられています。この新機能は試用できますし、実際に消費者のみなさんが試用していて、わたしたちは多くのすばらしいフィードバックを得ています」

今後のアップデートで、AIが生成した画像をメールやメッセージにドラッグ&ドロップできるようになる。

Courtesy of Google

Google I/Oで発表されたAndroidのGeminiのアップデートは、10年近く前のNow on Tapと同様に状況に対する認識を高めるものだ。今年後半には、Geminiで画像を生成し、ドラッグ&ドロップでGmailやGoogle メッセージなどのアプリに投入できるようになるだろう。

ここでバークが、Geminiがピックルボール[編註:プラスチック製で中空のボールに多数の穴があいたものを打ち合う競技]の画像を生成する事例を示してくれた。彼はピックルボールをすることに言及しているメッセージの相手に返信していた。そこでバークはGeminiを呼び出し、メッセージアプリの上に重ねて表示されたGeminiに画像生成を依頼し、生成された画像をドラッグ&ドロップでチャットに投入した。

Geminiに動画から特定の情報を引き出すように頼めるようになる。

Courtesy of Google

次にバークが見つけたのは、ピックルボールのルールについてのYouTube動画だ。動画を見ながらGeminiを使うと、「この動画について質問する」という選択肢が表示される。これを使えば、自分で動画全体を確認しなくても(そんな時間がある人はいない)、Geminiがすぐに動画内の特定の情報を見つけてくれるのだ。

バークがピックルボールのあるルールについて質問すると、Geminiは動画の内容を基にすぐに答えを出してくれた。この「要約」機能はPDFや動画、メモ、ニュース記事など、さまざまなコンテンツの要約を得意とする多くのAIツールの特徴となっている(すばらしい!)。

動画のテキストを要約する機能は役に立つかもしれない。

Courtesy of Google

PDFといえば、近いうちにGeminiにPDFを添付できるようになるという。その際には「このPDFについて質問する」という選択肢が表示されるようになる。これを利用すればGeminiが必要な情報を見つけてくれるので、PDFを何ページもスクロールする必要がなくなる。

グーグルのバークによると、これらの機能は今後数カ月のうちに数百万台のデバイスで利用可能になるという。ただし、PDF機能は「Gemini Advanced」のユーザー、つまりグーグルのAIモデルの最先端の機能を利用するために月額20ドル(日本では2,900円)の利用料を払っているユーザーのみが利用できる点には注意が必要だ。

さらにGeminiは画面上で起きていることに応じて、より多くの「ダイナミックな提案」を表示するようになるようだ。ユーザーがアシスタントを起動すると、これらの提案はGeminiのオーバーレイのすぐ上にポップアップ表示されるという。

Gemini Nanoはマルチモーダルに進化

Gemini Nano」は、「Pixel 8」シリーズや「Pixel 8a」、サムスンの「Galaxy S24」シリーズなどの特定のスマートフォンにおいて、デバイス上で動作する一部の機能を支えるグーグルの大規模言語モデル(LLM)だ。これらの機能はクラウドにデータを送信しなくても動作するので、プライバシーをより強固に保護できる(オフラインでも動作する)。

現在のGemini Nanoによって実現している機能は、例えばグーグルの「レコーダー」アプリでの文字起こしの要約や、一部のメッセージアプリで文脈に沿った自動返信を提供するスマートリプライ機能の提供といったことだ。

その新バージョンとなるマルチモーダルなGemini Nanoは、まずはグーグルのスマートフォン「Pixel」向けに年内に提供が始まる予定だ。「マルチモーダル」という言葉は少しわかりづらいかもしれないが、要するにGemini Nanoがテキストだけでなく、画像や動画といったものを理解できるようになる、ということだ。

「このモデルは38億のパラメーターをもち、マルチモーダルになっています。初めての端末に組み込まれたマルチモーダルなモデルなのです」と、グーグルのバークは説明する。「非常に強力なモデルで、学術的なベンチマークではGemini 1.0の約80%の性能に達しています。これほど小さなモデルでこの性能は驚異的と言えるでしょう」

これにより、Androidで画面を見なくても操作できる補助機能「TalkBack」がさらに進化する。TalkBackは、目の不自由な人や弱視の人が画面の内容を理解する際に助けになる機能だ。この機能にGemini Nanoを導入することで、画面上の画像がより詳しく、正確に説明されるようになる。

グーグルによると、TalkBackのユーザーは「1日平均で90枚ものラベルのない画像」を目にしているという。しかし、Gemini Nanoならその問題を解決できる。画面上に表示された画像を認識して理解したうえで、オフラインでも説明できるからだ。

Androidで画面を見なくても操作できる補助機能「TalkBack」は、Gemini Nanoによって画面上の画像がより詳しく、正確に説明されるようになる。

Courtesy of Google

ここ数年のグーグルはAIの力を存分に活用し、自動音声通話を制限する通話スクリーニング技術を大きく進歩させてきた。そして今度は、マルチモーダルなGemini Nanoが登場することで、リアルタイムで電話詐欺を回避できるようになる。

「Scam Detection(詐欺検知)」と名付けられたこの新機能は、Gemini Nanoが通話の内容をチェックし、相手が口にした特定のフレーズや要求を検知すると「詐欺電話の可能性が高い」として警告してくれる。バークによると、このモデルには「BanksNeverAskThat.com」のようなウェブサイトのデータを学習させたという。つまり、銀行が顧客に尋ねるはずのないことや、詐欺師がよく尋ねてくる内容を学ばせたということだ。

大切な点は、この処理がすべて端末内で実行されることだろう。つまり、プライバシーは守られる。このオプトイン(利用の意思表示をしたユーザーにのみ提供される)で導入される機能の詳細については、今年後半に明らかになるだろう。

グーグルは珍しいことに、1日の発表だけですべてを一気に明らかにせずに、2日目にもAndroidの新機能をいくつか発表するという。続報に注目したい。

AIガジェットがスマートフォンに対抗すべく存在感を高めていることや、アプリが不要の生成AIを用いたインターフェイスが話題になっていることから、今後5年でAndroidがどう変化していくと考えているのかをグーグルのサマットに尋ねてみた。彼は新しいことに挑戦する新たな企業や既存の企業のイノベーションにわくわくしている様子で、グーグルも「社内で多くのことを試しています」と語っている。

そのうえで、自動車業界にたとえて次のように話をまとめた──。クルマを買うときに、ハンドルのように標準装備されている機能を期待することは当たり前である。しかし、AIの世界では、そうした機能をすべてなくしてしまうことが大きな飛躍になるかもしれないというのだ。ハンドルもインターフェイスもないクルマを想像してみてほしい。「そんなクルマにわくわくする人もいれば、そうでない人もいるでしょうね」と、サマットは言う。

わたしたちがスマートフォンでこなしている一部の操作は、AIの力を借りることでこれまで以上に補助的なものになっていくとサマットは考えている。要するに、一部の機能がAIに置き換えられていくことを想定しているのだ。

「このような流れが続くと、わたしたちは新しい発見をすることでしょう。実際に社内で実施しているテストでも、特定の分野ではユーザーインターフェイス(UI)を根本から変えられる可能性が見えてきています。『これは本当に便利だ』と感じる段階から、『もっといいやり方があるはずだ』と考える段階へと移行できるのです。これこそが、いまの時代のおもしろくてわくわくするところだと思います。いまはこのテクノロジーに取り組むには最高のタイミングですよ」

(Originally published on wired.com, edited by Daisuke Takimoto)

※『WIRED』によるグーグルの関連記事はこちらGoogle I/Oの関連記事はこちら


Related Articles
Google CEO Sundar Pichai takes to the stage at the Google I/O developer conference
グーグルが開発者会議「Google I/O」の基調講演で発表した内容はAI一色だった。マルチモーダルなチャットボットから新しいAI検索機能、Google WorkspaceとGeminiの統合まで、注目すべき7つのポイントを紹介しよう。
Demis Hassabis, chief executive officer of DeepMind Technologies Ltd.
グーグルが次世代AIアシスタント「Project Astra」を開発者会議「Google I/O」で発表した。人間と自然に対話し、テキストや音声、画像、動画にも対応するマルチモーダルなAIは、OpenAIの「GPT-4o」を用いたChatGPTに対するグーグルの“回答”でもある。
Photo of presenters at the  OpenAI's event
OpenAIが新しいAIモデル「GPT-4o」を発表した。この新しいモデルで「ChatGPT」が動作することで、チャットボットとのスムーズかつ自然な音声会話が実現するという。その様子は、これまで以上に“感情”が豊かで人間を思わせるものだ。

雑誌『WIRED』日本版 VOL.52
「FASHION FUTURE AH!」は好評発売中!

ファッションとはつまり、服のことである。布が何からつくられるのかを知ることであり、拾ったペットボトルを糸にできる現実と、古着を繊維にする困難さについて考えることでもある。次の世代がいかに育まれるべきか、彼ら/彼女らに投げかけるべき言葉を真剣に語り合うことであり、クラフツマンシップを受け継ぐこと、モードと楽観性について洞察すること、そしてとびきりのクリエイティビティのもち主の言葉に耳を傾けることである。あるいは当然、テクノロジーが拡張する可能性を想像することでもあり、自らミシンを踏むことでもある──。およそ10年ぶりとなる『WIRED』のファッション特集。詳細はこちら