Googleが「AIカーソル」を発表。マウスポインタが声で動き出す時代へ

Google DeepMindが公開した「Magic Pointer」は、Geminiを搭載した新しいマウスカーソル。指し示した対象をAIが理解し、声で指示すれば動いてくれます。これは、次のOSが「音声」を中心に作られる兆しです。

この記事のポイント

Google DeepMindが2026年5月12日に発表した「Magic Pointer」は、Geminiを搭載したAIカーソル。指している対象をAIが理解し、ユーザーは長いプロンプトを書かずに、指して声で指示するだけで操作できる。
DeepMindが掲げる4原則（流れを止めない／指して伝える／「これ・それ」の活用／ピクセルを操作対象に変える）は、いずれも音声が入力手段であって初めて機能する。「これ」「それ」は声と組み合わさることで意味を持つ言葉だから。
Magic PointerはGemini in Chrome（Windows/Mac）に展開中。Googlebookでは2026年秋からOS機能として標準搭載され、Acer、ASUS、Dell、HP、Lenovoから順次登場予定。
VoiceOSは、Mac／Windowsの今あるノートPCで、Magic Pointerに近い「音声＋文脈」の働き方をすでに実現。Dictate、Agent、Ask、Edit の4モードで全アプリを横断。Y Combinator（X25）採択企業。

Googleが発表したのは、ただのカーソルではなかった

2026年5月12日、Google DeepMindは「AI時代のマウスポインタを再構築する」というタイトルのリサーチ記事を公開しました。著者は研究者のAdrien BaranesとRob Marchant。同じ日、GoogleはGemini搭載の新しいノートPC「Googlebook」も発表しています。発表元は別々ですが、目玉機能はひとつ。「Magic Pointer」です。

Magic Pointerは、Geminiの力で「カーソルが今どこを指していて、なぜそれを指しているのか」を理解する新しいタイプのカーソルです。メールの中の日付を指して「会議を作って」と言えば、カレンダーに予定が立ち上がる。記事の段落を指して「これを翻訳して」と話せば、その場で訳が出る。ウェブサイト上の椅子を指して「これをうちのリビングに置いてみて」と頼めば、AR的に部屋に合成してくれる。「コピーしてAIアプリにペーストしてプロンプトを書く」という流れが、まるごと「指して、話す」の2ステップになります。

実際に試せるデモも公開されています。Google AI Studio上には2つの体験版があり、ひとつは画像編集、もうひとつは地図上で場所を探す機能。さらにGemini in Chrome（Windows/Mac）にも、ページ上の特定部分について質問できる「ポインター連携」が順次展開中。秋に登場するGooglebookでは、OSレベルの機能として深く統合される予定です。

マウスポインタが50年以上変わっていなかったことを思えば、これは相当大きなニュースです。しかし、ニュースの本質は「カーソルが進化した」ことではありません。「指で示して、声で伝える」という、人間にとって最も自然な操作が、ついにコンピュータにも持ち込まれた。その「声」の部分こそが、今回の発表でいちばん見落とされやすいポイントだと感じています。

一次情報: Google DeepMind blog · Googlebook announcement · AI Studio 画像編集デモ · AI Studio 地図デモ

AIポインタを支える4つの原則

DeepMindはこの新しいインタラクションを設計するうえで、4つの原則を掲げています。並べてみると、これは単なるUI改善ではなく、人間がもともと持っているコミュニケーションの形にコンピュータを近づけていく試みだとわかります。

1つ目は「フローを途切れさせない」こと。現状のAIツールはたいてい自分専用のウィンドウに住んでいて、ユーザーが資料を「AIの世界に引きずり込む」必要があります。Magic Pointerはこの関係を逆転させます。PDFでも、スプレッドシートでも、レシピサイトでも、動画でも、AIはカーソルのいる場所まで自分から来てくれます。

2つ目は「示すことと、伝えること」。長いプロンプトで状況を説明する代わりに、ただ指せばいい。AIはあなたが指している単語、段落、画像の一部、表、コードのブロックを読み取り、それを文脈として使います。指で示せる情報を、わざわざ言葉で書き起こす必要がなくなります。

3つ目は「これ・それ・あれ」の力を活かす、というもの。人は普段、長い説明文をしゃべりません。「ここ直して」「あれをここに動かして」「これってどういう意味？」。短い言葉と指差しの組み合わせで、たいていの用は足りる。Magic Pointerは、その人間らしい話し方をそのままコンピュータに通じるようにしようとしています。

4つ目は「ピクセルを、操作できる対象に変える」こと。これまでの50年、カーソルは「自分が今どこにいるか」だけを伝える存在でした。AIカーソルは「自分が何を指しているか」まで理解します。手書きメモの写真は対話できるTo-Doリストになり、旅行動画の一時停止フレームは、画面に映っているレストランの予約リンクに変わる。画面の中の「絵」が、実際に触れる「モノ」になっていく感覚です。

ひとつずつ見るとUXの細かい工夫に見えますが、4つ並べると別物が見えてきます。これは、自然言語を前提に作られたインターフェースの設計図です。指すだけでは足りない。指して、声で伝える。声がなければ、Magic Pointerはただの「ホバー機能」に戻ってしまいます。

「これ」「それ」が成立するのは、声があるからこそ

言語学に「ダイクシス（直示）」という概念があります。「これ」「それ」「ここ」「あそこ」のように、文脈なしには意味が確定しない言葉のことです。話し手と聞き手が同じ場所を見ているからこそ機能する、いわば言葉のポインタ。人間どうしの会話で多用されるのは、それがいちばん効率がいいからです。

DeepMindが「『これ』と『それ』の力を活かす」と言うとき、本質的に求めているのは「直示表現を理解するインターフェース」です。そして直示表現は、本来的に話し言葉です。チャット欄に「これ」と書いても、AIには何を指すのか分かりません。でも、段落を指しながら「これ訳して」と口に出せば、AIには見えている画面と、声と、文脈がすべて揃います。

DeepMindのブログにも、Googlebookの発表ページにも、登場する例はほぼすべて声を前提にしています。「Show me directions」「Fix this」「Move that here」「Put it there」「What does this mean?」。どれもタイピングするには手間ですが、声に出せばあっという間です。AIカーソルにとって、音声は「あれば便利な追加機能」ではなく、設計そのものを成立させる中心の要素です。

公式デモ動画を観るのがいちばん早いと思います。

Google DeepMind公式の発表動画。AIポインタが「指して、声で伝える」操作をどう実現するかをデモで紹介しています。

50年間クリックしてきたカーソルが、ようやく進化する

マウスポインタの歴史は、パソコンよりも古い。Douglas Engelbartが1968年、いわゆる「すべてのデモの母」と呼ばれる伝説の発表で初めて公開しました。1980年代半ばに右クリックが加わり、それ以降、本質的な進化はほとんどありません。スクロール、ジェスチャー、トラックパッド、タッチスクリーン。少しずつ便利になりましたが、カーソル自体は「画面上の座標」を返すだけの矢印のままでした。

DeepMindが提示しているのは、その原始的な道具に対する、初めての本格的なアップグレードです。カーソルはもう「位置」だけを表すものではない。AIにとっての「いま注目している文脈」であり、声の照準であり、ピクセルをモノに変える接点になる。

ここで思い出されるのは、Appleが15年以上追いかけてきたビジョンです。2010年にAppleがSiriを買収したとき、スティーブ・ジョブズは「これがコンピュータと対話する未来の形だ」と語っていました。当初のSiriは、答えを返すだけでなく、実際に行動してくれる「Doエンジン」を目指していた。Appleはそこまで届けきれませんでしたが、いまGoogleはMagic Pointer、Gemini in Chrome、そしてGooglebookという3点セットで、その未完のビジョンに最も近いところまで来ています。

もしまだ読んでいなければ、Siriの背景についてはこちらの記事が詳しいです。

音声が、新しいOSの「接続層」になる

ここ半年、各社が出してきたものをまとめて眺めてみると、面白い構図が浮かび上がります。AppleはSiriのコアにGeminiを採用するため、Googleと複数年契約を結びました。報道では年間およそ10億ドル規模。AnthropicはClaude Codeにネイティブの音声モードを搭載。GoogleはStitchに音声でデザインする機能を入れ、Geminiアプリの音声モードも全面刷新し、そして今回、DeepMindがマウスカーソルそのものを声で動かす形に作り変えました。

別々のチームが、別々の場所で、まったく同じ方向に賭けている。それは「音声を、ユーザー・モデル・アプリのあいだをつなぐ接続層にする」という賭けです。音声は文脈を運ぶ手段になります。あるものを指しながら、別のものに言及し、3つ目について質問する。画面の境界を越えて自然につながっていく、その手段が声です。

従来の意味でのOSは、ファイル・プロセス・ウィンドウを管理するレイヤーでした。これからのOSが管理するのは「意図」です。ユーザーが何を言ったか、何を指したか、どのアプリやエージェントやデータを呼び出すべきか。ポインタは入力のひとつにすぎず、もうひとつの主役が音声。テキストでプロンプトを書く時代が終わったあと、人間とコンピュータをつなぐのは、この2つの組み合わせです。

この流れをもう少し広く整理した記事もあります。よければあわせてどうぞ。

ChromebookからGooglebookへ：繰り返されるパターン

Googleは15年ほど前にChromebookを発表しました。「ブラウザがOSになる」というクラウド時代の賭けで、教育現場や企業を中心に、数千万人のユーザーに使われるまでになりました。

Googlebookは、それと同じ性質の賭けを「インテリジェンス時代」に対して打つ製品です。Googleは「Geminiの便利さを中心に据えた、まったく新しいカテゴリのノートPC」と説明しています。蓋を開けたとき最初に目にするのがMagic Pointer。「カーソルをちょっと揺らすだけで、Geminiが反応する」体験になっているそうです。加えて、Geminiが組み立てる自作ウィジェット機能、Androidスマホとのファイル・アプリ連携、ガラスのバーのような独自デザインも特徴です。

メッセージは明快です。「次の10年のコンピューティングは、OSレベルでインテリジェンス層を握った企業のものになる」とGoogleは見ています。Microsoftも同じ判断でCopilot+ PCに踏み込み、AppleもApple IntelligenceとGemini版Siriで応じています。各社が共通してたどり着いた結論は、キーボードとトラックパッドだけでは足りない、ということ。声が必要で、画面の文脈を見て聞いて動けるAIが必要になる、という認識です。

もちろんGooglebookが今年の主役になるとは限りません。ただ、その設計思想、とくにMagic Pointer的な発想は、Chromeを通じて全プラットフォームに広がり、Googleの他プロダクトに浸透し、競合も追随していく可能性が高い。流れの方向は、もう決まりつつあります。

VoiceOSは、いまどこに立っているか

VoiceOSは、Magic Pointerが発表されるずっと前から、同じ確信のもとに作られてきました。声はコンピュータ操作の主役であるべきで、ひとつのアプリの中だけでも、特定のデバイスの中だけでもなく、すでに手元にあるすべてのアプリ、すべてのノートPCで使えるべきだ、という考え方です。

VoiceOSはMacとWindowsで、システム全体に重なるレイヤーとして動きます。Dictateモードはあらゆるアプリで音声を整形済みのテキストに変換し、フィラーワードを取り除き、開いているアプリに合ったトーンに自動調整します。AgentモードはGmail、Slack、Googleカレンダー、Notion、Googleドライブ、Googleドキュメント、スプレッドシートと連携。「土曜日の天気を調べて、Mikeにサーフィン誘うメールを天気付きで送って、Google Driveの旅行フォルダも共有して」のような複数アクションを、ひとつの声でつなげて実行できます。Askモードは画面に表示されている内容について質問でき、Editモードは選択したテキストを声で書き換えたり、構成を組み直したりできます。

今回のMagic Pointerに最も近い体験は、VoiceOSのAsk／Editモードで既に提供しています。画面上の何かを選び、自然に話しかけると、AIが選択範囲と音声の両方を文脈として理解する。この働き方を体験するために、Googlebookを待つ必要はありません。今、目の前のMacやWindowsにVoiceOSをインストールするだけで、すぐに始められます。

違いは「対応範囲」です。Magic Pointerは、ChromeとGooglebookに最適化された、Google中心の体験。VoiceOSは特定のブラウザ・特定のAI・特定のメーカーに縛られません。どんなAIモデルでも、どんなアプリでも、その上に乗る「音声レイヤー」として動きます。

ここから先の風景

Magic Pointerは、もっと大きな変化の最初の一手にすぎません。カーソルは「見る」ようになり、マイクは常時「聞く」ようになり、AIは「動く」ようになる。アプリは閉じた島ではなく、AIが読み書きできる「表面」になっていきます。キーボードは消えませんが、デフォルトの入力手段ではなくなっていくはずです。

その世界で、音声は「機能のひとつ」ではなく「全体をつなぐ組織」になります。指しながら口にする「これ」「それ」も、ひと息で語る複数アクションの依頼も、すべてが「どこでも、低遅延で、高い精度で、文脈を理解する音声」を前提にして成り立ちます。

それこそ、VoiceOSが目指してきたものです。今使っているOSの上に乗る、ベンダー中立の音声レイヤー。DeepMindがMagic Pointerで届けようとしている「指して、話せば、コンピュータが理解する」体験を、すべてのアプリ・すべてのブラウザ・すべてのAIモデルにわたって提供すること。カーソルはまず賢くなりました。次は、コンピュータの他の部分が追いつく番です。その橋渡しをするのが、音声です。

参考リンク

よくある質問（FAQ）

GoogleのMagic Pointerとは何ですか？どう動きますか？

Magic Pointerは、Google DeepMindが開発しGeminiが動かすAIカーソルで、2026年5月12日に発表されました。カーソル周辺の視覚情報と意味情報をGeminiに渡し、長いプロンプトを書かなくても、画面上の段落・画像・表・商品などを「指して、声で指示するだけ」で操作できるようにする仕組みです。「これを翻訳して」「ここに置いてみて」のような短い指示でAIが文脈を理解します。Gemini in Chrome（Windows/Mac）に順次展開中で、2026年秋に登場するGooglebookではOSレベルの機能として深く統合されます。

GoogleのAIポインタは、いまどこで試せますか？

Google AI Studio上で、2つの体験版デモが公開されています。画像編集デモは aistudio.google.com/apps/bundled/ai-pointer-create、地図上で場所を探すデモは aistudio.google.com/apps/bundled/ai-pointer-find です。Gemini in Chrome（Windows/Mac）でも、ポインタを使った質問機能が順次有効化されています。フル機能のMagic Pointerは、2026年秋発売予定のGooglebookに搭載されます。

Googlebookとは何ですか？いつ発売されますか？

Googlebookは、2026年5月12日にGoogleが発表したGemini搭載の新しいノートPCシリーズです。AndroidとChromeOSの技術を組み合わせ、Gemini Intelligenceを中心に設計されています。主な機能は、AIカーソル「Magic Pointer」、声で作れる自作ウィジェット、Androidスマートフォンとの深い連携、特徴的なグローバーのデザインなど。Acer、ASUS、Dell、HP、Lenovoの5社が初期パートナーとなり、2026年秋から順次登場予定です。

なぜAIポインタには「音声」が必要なのですか？

AIポインタの基本になる操作が「直示表現」だからです。「これ」「それ」「ここ」「あそこ」のような言葉は、指差しと文脈があって初めて意味が確定します。指しながら声で言うのは自然ですが、チャット欄にタイプしてもAIには何を指すのか分かりません。DeepMindの発表に登場する例（「これを直して」「ここに置いて」など）はすべて声を前提にしています。AIポインタにとって、音声は追加のおまけではなく、設計を成立させる中心の入力手段です。

2026年、MacとWindows向けで最もおすすめの音声AIツールは？

VoiceOSは、2026年のMac／Windows向け音声AIツールとして高く評価されています。ChromeやGooglebookの中だけで動くMagic Pointerとは違い、VoiceOSは手元にあるPC上のすべてのアプリで動作。あらゆるアプリで使えるDictateモード（音声入力）、Gmail／Slack／Googleカレンダー／Notion／Driveに対する複数アクションをこなすAgentモード、画面内容について質問できるAskモード、声でテキストを書き換えるEditモードを備えています。開発はWakoAI Inc.、Y Combinator（X25）採択。

音声は本当に「新しいOS」になりつつあるのですか？

はい、その兆候ははっきりしてきています。AppleはSiriの次世代エンジンにGeminiを採用するため、Googleに年間およそ10億ドルを支払う複数年契約を締結。AnthropicはClaude Codeに音声モードを搭載。GoogleはStitchに音声デザイン機能を加え、Geminiアプリの音声モードを刷新し、今回DeepMindがマウスカーソル自体を声で動かす形に作り変えました。各社が共通して賭けているのが、ユーザー・アプリ・AIをつなぐ「接続層」としての音声の役割です。

VoiceOSは、GeminiのMagic Pointerと何が違うのですか？

VoiceOSはベンダー中立で、システム全体で動作します。一方、Magic PointerはChromeとGooglebookに最適化されたGoogle独自の機能です。VoiceOSはブラウザ、AIモデル、PCメーカー、アプリの種類を問わず、Mac／Windowsの上に「音声レイヤー」として乗ります。Slack、Gmail、Notion、Cursor、VS Code、ChatGPT、Claudeをはじめ数百のアプリで動作。さらに、複数のアプリにまたがる多段アクションを一度の音声指示で実行できる点も、現在のMagic Pointerにはない特徴です。

声で動くコンピューティングを、今すぐ体験する

VoiceOSは、Mac／Windowsのすべてのアプリにまたがる音声レイヤーです。Googlebookを待つ必要はありません。無料でダウンロードできます。

VoiceOSをダウンロード