Googleが「Gemini for Mac」を音声ファーストに刷新。Rambleモードと、24時間動くAIエージェント Gemini Spark の全貌

I/O 2026でGoogleは、Mac版GeminiにFキー長押しの新しい音声入力モードを発表しました。画面コンテキストを読み取り、フィラーや言い直しを含む「ぐずぐずした話し方」を、カーソル位置のきれいなドラフトに変えてくれる仕組みです。同時に発表された Gemini Spark は、24時間バックグラウンドで動くパーソナルAIエージェントで、夏にはMacにもやってきます。本記事では、Googleが本当に出したものと、まだプレビュー段階のもの、そしてVoiceOSがMac・Windowsで今日すでに提供している領域を整理します。

この記事のポイント

2026年5月19日のGoogle I/O 2026で、GoogleはGemini Spark（24時間動くパーソナルAIエージェント）、Gemini 3.5 Flash、Mac版GeminiのFキー長押し音声モード、そして再設計された会話UIを発表。Macが「チャットの中の付録」ではなく「音声の一級プラットフォーム」として扱われたのが、最大の変化。
新しいMac音声モードは、Fキーを長押しして、umsや言い直しを気にせずぐずぐず話せば、画面コンテキストを踏まえた整ったドラフトが、いま開いているアプリのカーソル位置に落ちてくる仕組み。AndroidのGboard向け「Rambler」と同じ思想を、Mac側に移植した形。
Gemini SparkはGoogle Cloud上のVMで動くクラウドエージェントで、Workspaceに加えMCP経由のサードパーティ連携にも対応。料金はGoogle AI Ultraの月100ドル、来週から米国限定ベータで提供開始。Mac版はこの夏にローカルファイル操作とデスクトップ自動化を含む形で展開予定。
VoiceOSは、このループをmacOSとWindowsで今日すでに提供している。キーを押して話せば、Slack・Gmail・カレンダー・Notion・Drive・Docs・Sheetsを含む既存アプリすべてで、コンテキスト対応のクリーンなドラフトと、マルチステップのアクション実行が動く。ダウンロードは無料、Proは年払いで月11.99ドルから。WakoAI Inc.開発、Y Combinator（X25）採択企業。

I/O 2026でGoogleがMacに対して発表したこと

2026年5月19日、Google I/Oのキーノートに登壇したSundar Pichaiは、サラッと、しかし確実に「Macというデバイスの位置づけ」を更新してきました。発表は大きく4つ。新モデル Gemini 3.5 Flash、24時間動くパーソナルAIエージェント Gemini Spark、Mac版Gemini向けの「長押しで音声入力」体験、そして入力からそのまま会話に切り替えても文脈が途切れない新しい Gemini UI です。Sundarは Spark を「あなたのデジタルライフを進めてくれる、あなたの指示のもとで動く、あなた専用のAIエージェント」と表現しました。スクリーンに映っていたのは Mac でした。

Mac版Geminiアプリそのものは新しいものではありません。Googleは2026年4月に、gemini.google/macで配布する公式のmacOSアプリをすでに出しています。macOS 15以降で無料、Option + Space をシステム全体のショートカットとして任意のウィンドウの上から呼び出せる、というシンプルな作りです。I/O 2026で変わったのは、「Macは、雲の上のモデルと話すためのチャット画面」という扱いを、Googleがやめたことです。これからのMacは、画面コンテキストとマイクとローカルファイルと、進行中のワークフローを持ったデバイスとして、エージェントの土台に据えられる。音声機能と Spark 統合は、その橋渡しです。

Mac向けに「夏に出ます」と予告された具体機能は2つあります。1つ目は、Fキー長押しで起動する新しい音声入力体験。画面下にフローティングのピル型UIが現れ、ぐずぐず話していい雰囲気のままユーザーの発話を聞き、キーを離すと、いまアクティブなアプリのカーソル位置に整ったドラフトが落ちてくる、というものです。2つ目は、Gemini Spark の Mac 版統合。Sparkがすでに持っているクラウド連携に加えて、Mac上のローカルファイルや、デスクトップを横断するワークフローまで触れるようになります。

この2つを並べると、いままで「テキスト入力の補助」として置かれていたMacの音声機能が、初めて「アプリをまたいで仕事を進めるための主要入力」として扱われた、と言えます。これは、機能単体よりも、フレーミングの方が大きな変化です。なぜなら、それはVoiceOSがローンチ当初から取ってきた立場と完全に同じで、Apple、OpenAI、xAIも別ルートから同じ方向に向かっているからです。Macは、声で動かすデバイスになる。Googleはその方向に、明確に旗を立てた、という話です。

一次情報: Google Blog: next evolution of the Gemini app · gemini.google: Gemini Spark · gemini.google/mac

Mac版「Ramble」モードの中身：長押しして、しゃべって、整ったドラフトが返ってくる

Googleが今回 Mac 版 Gemini で見せた音声機能は、非常にシンプルなジェスチャの上に成り立っています。Fキーを長押しすると、画面下にフローティングのピルが現れます。話す。離す。1秒ほど考えるようなアニメーションが入り、整ったテキストが、いま開いているアプリのカーソルにそのまま落ちてくる。この設計は、Androidの「Android Show: I/O Edition 2026」で発表された Gboard 向け Rambler とほぼ同じ構造です。「ステノグラフ的な書き取り」ではなく、「ぐずぐずな発話を、ドラフトの素材として扱う」という発想が共通しています。

面白いのは、Geminiが音声に対して何をしているか、です。単に文字起こししているわけではありません。「um」「ah」「you know」のようなフィラーを取り除き、文の途中の言い直し（「3時にしよう、いや2時で」と言えば「2時」だけ反映する）を理解し、ユーザーが暗に意図した構造を再構築し、いま使っているアプリに合わせて出力をフォーマットしてくれます。チャットなら短く、メールなら段落構成で、ドキュメントなら箇条書きで、というふうに。

キーノートのデモは、その「画面コンテキスト」の部分を分かりやすく見せました。ユーザーがFinderで複数のファイルを選び、Fキーを長押しして「これをAlexに送って、最新モックです、金曜までにフィードバックほしいです、と添えておいて」とぐずぐず話す。GeminiはGmailで下書きを作り、選んだファイルを添付し、添え書きを書き、その下書きを送信前のコンポーズウィンドウに置く。声は動詞。画面が文脈。出力は「正しいアプリに置かれた完成形のドラフト」。これは音声入力というより、ワークフローの主要入力として声を使う設計です。

プライバシーとリリース時期については、まだ詰めて公表されていません。Gboard版のRamblerについて Google は、音声をリアルタイム文字起こしのためだけに使い保存しないこと、機能が動作中であることをUI上で明示することを表明しています。Mac版の挙動もこれに準じる見込みですが、詳細は未公表です。そしてMac版の音声機能は、いまGeminiアプリに入っているわけではありません。Mac版のGeminiアプリ自体はすでにダウンロードできますが、新しい音声体験は I/O 2026 でプレビューされた段階で、夏のロールアウトが予告されている状態です。

Gemini Spark：クラウドに半分住んでいる、24時間稼働のMacエージェント

Gemini Spark は、今回の発表のなかでもより野心的なほうです。Sparkは、専用のGoogle Cloud仮想マシン上で常時稼働する、24時間体制のパーソナルAIエージェント。ローカルではなく、クラウドで生きているのがポイントです。あなたのスマホがロックされていても、ノートPCを閉じていても、Sparkは裏で動き続ける。Pichai の言い方を借りれば、「ものを肩越しに後ろに投げる感覚で、Spark がそれを受け止めて片付けてくれる」存在です。

中で動いているのは、I/O 2026 で同時に発表された新モデル Gemini 3.5 Flash。Googleはこれを、エージェント・推論用途で「同等のフロンティアモデル比、約4倍速、コストは半分以下」と打ち出しています。Sparkは Workspace のアプリ群（Gmail、カレンダー、Drive、Docs、Sheets、Slides、YouTube、Google マップ）にネイティブで接続し、さらに Model Context Protocol（MCP）経由でサードパーティ連携を広げています。Googleが挙げた早期の MCP 連携先は Canva、OpenTable、Instacart などです。

Macに関しては、Spark は来週から Google AI Ultra のサブスク契約者（米国）向けのベータとして、Android、iOS、Webの Gemini アプリでまず使えるようになります。macOS への対応は、その夏に続く形です。デスクトップで仕事をしている人にとって意味があるのは、まさにこの Mac 版です。Mac との統合では、Workspace のクラウド接続に加えて、ローカルファイル上のアクションや、デスクトップを横断するワークフローの自動化までエージェントに任せられるようになる、と Google は明言しています。

Googleがデモや発表で挙げたユースケースには、メールの代理執筆、クレジットカード明細から「気づかないうちに払っているサブスク」を見張る、継続的に更新される学習ガイドを生成する、毎朝あなた専用のブリーフィングを用意する、といった例が含まれます。Sparkは、メール送信や支払いなど影響が大きい操作には、必ず事前にユーザーへ確認を取る設計です。全体としては「チャットボット」というよりも、「常時待機のチーフ・オブ・スタッフ」に近い。料金は Google AI Ultra で月100ドル、米国限定の開始というのが入場料です。

なぜ「いま」が、Macの主要入力が声に切り替わる瞬間なのか

Mac上の音声機能は、この10年ほど「システム設定の中にある『Dictation』というスイッチ」のままでした。中身は基本的にステノグラファーです。話したことを書き取るだけ。意図は理解しないし、行動もしない。画面コンテキストは無視。ウィンドウを開く、キーを押す、しゃべる、見直す、直す、貼り付ける、という儀式が必要で、これがあるから、明らかにタイピングより早くしゃべれる人でも、結局キーボードに戻ってしまうわけです。

2026年に何が変わったかというと、ベースとなるモデルがついに「聞く・考える・整える・動く」を同じターンの中で全部できるようになったことです。OpenAIはGPT-5クラスの推論をライブ音声に持ち込むGPT-Realtime-2をリリース。xAIは「Hey Grok」のウェイクワードと会話ナビをテスラに搭載。AppleはiPhoneとiPadに自然言語のVoice Controlを導入。そして今回、Googleが同じループをMacに持ち込みます。音声は単なる文字起こしのチャネルではなく、「画面の他のすべてを使って、ユーザーが実際に何を意図しているか」を解く入力として扱う、という共通の方向です。

「Fキー長押し」というジェスチャ選択も、その意図をよく表しています。Googleは、「Hey Gemini」のような常時聞いている形のウェイクワードを採用することもできました。あえてやらなかった。長押しは触覚的で、意図的で、開始と終了が明確です。ユーザーは「これから話します」と明示的に宣言し、同時にシステム側も「いま音声が、キーボードと同列の一級アクションになっている」とユーザーに伝える。Macは「音声がドラフトとアクションを生む主入力である」前提で再設計され始めている。これは、キーノートに並んだ個々の機能よりも大きな変化です。

そして、これは時代にもよく噛み合っています。ナレッジワーカーは1日のほとんどを5〜6個のアプリで過ごしますが、その日のなかで摩擦になっているのは、タイピングのスピードではなく、「ちょっとした用事のためにアプリを切り替えるコスト」です。ドキュメントを書きながらSlackに返す、メールを書きながらカレンダーに予定を入れる、質問に答えるためにファイルを共有する。声はこの切り替えを消してくれる。ドキュメントの中で集中したまま、手は元の作業に置いたまま、エージェントがサイドクエストを処理しに行く。フローが切れない、という形です。

現実的な制約：月100ドル、米国限定、ほとんどは「夏に出ます」

ここで、いま現実に「使えるもの」と「まだプレビュー段階のもの」をきちんと区別しておきます。Mac版のGeminiアプリ自体は、すでにgemini.google/macから無料でダウンロードできます。macOS 15以降に対応し、Option + Space をグローバルショートカットとして使え、開いているウィンドウの内容をコンテキストとして渡すこともできる。ここまでは今日から動いています。今日まだ動かないのは、新しい音声モードと Mac 版 Spark の2つです。どちらも I/O 2026 でプレビューされ、夏のロールアウトが予告されている段階です。

Spark本体も、ローンチ時点では絞られた配り方をします。入口は Google AI Ultra のみで、料金は月100ドル。初期ベータは米国限定、18歳以上が対象で、一部のビジネスユーザーから順次広げる、というロールアウトです。Google は今後数週間でアクセスを拡大すると明言しており、将来的には Google AI Pro 帯のユーザーにも開放される見込みですが、現時点では Ultra がホームベース、という整理になっています。米国外にいる方、フリープランの方、月100ドルを払う気がない方にとっては、Spark はまだ手の届く距離にはありません。

新しい音声体験のほうは、Mac版Geminiアプリ向けに「今後数週間でグローバル展開」とブリーフィングで伝えられており、Sparkよりは間口が広めです。とはいえ、こちらも「今後」の話。さらに、機能は Gemini アプリ内にひも付いています。GeminiがGeminiの世界観で書き直して、カーソル位置にドラフトを置く形なので、Macというデバイスのあらゆるアプリで同じように動く「ユニバーサルな音声レイヤー」とはまだ言えません。Notion、Linear、Cursor、Superhuman など、いま実際に毎日触っている主戦場のアプリに Google が一級対応してくれるのは、もう少し先の話になります。

そして Spark はクラウドエージェントです。実体は Google Cloud 上の VM で動いていて、Mac の中に住んでいるわけではありません。Mac連携が大事なのは、その遠くにいるエージェントが、あなたのローカルファイルやデスクトップのワークフローに触れるためのトンネルを通す部分です。ノートPCを閉じていても動き続ける、という強みはここから来ます。一方で、ローカルの文脈やファイル、ワークフローのデータが Google のホスト環境を経由する、ということでもあります。ここは、個人ユーザーでも企業でも、オンにする前に一度きちんと考えるポイントです。

VoiceOSが今日すでにMac（とWindows）で提供していること

今回 Google が Mac 向けに見せた絵は、VoiceOSがローンチ以来出荷してきた絵と、ほぼ同じ形をしています。キーを押す。ums も言い直しも気にせず自然に話す。VoiceOSがアクティブなアプリと周辺テキストを文脈として読み、フィラーを取り除き、文法を整え、いまいるアプリに合うようにフォーマットして、整ったドラフトをカーソル位置に落としてくれる。さらに、Slack、Gmail、Googleカレンダー、Notion、Drive、Docs、Sheetsといった「実際に毎日使っているアプリ」での複数ステップのアクション実行（Agent モード）も、すでに動いている、という状態です。

Dictateモードは、Googleの「Ramble」に最も近いVoiceOS側の機能です。起動キーを押している間、自然な流れで話し、離す。VoiceOSは、フィラーや言い直しを除いて意図を捉えたきれいなテキストを、アプリのコンテキストに合わせて出力します。別途 Gemini ウィンドウを開く必要はなく、Googleアカウントの設定もいりません。あなたのMacで文字入力ができるアプリなら、そのアプリでそのまま VoiceOS の音声入力が動きます。Notion、Cursor、Linear、Superhuman、ChatGPT、Claudeのような、Googleが一級で対応していないアプリも含めて、です。

AgentモードはSparkに最も近い領域ですが、設計思想の重心が違います。VoiceOSは複数アプリにまたがるマルチステップのアクションを、ユーザーの確認を挟みながら実行します。たとえば「Sarah に Slack で『10分遅れます』ってメッセージ送って、それから2時のカレンダー招待を2時半に動かして」と一言。1コマンド、2アプリ、リアルなアクション。実行前に必ず「これからこれをやります」というプレビューが出て、ユーザーが確認します。Sparkが「裏で自律的に動くクラウドエージェント」だとすれば、VoiceOSは「目の前のMacにいて、いまこの瞬間のあなたの指示を受けて動く、ローカルファーストの音声レイヤー」です。

実用的な差として、料金もあります。VoiceOSのProプランは7日間の無料トライアル付きで、年払い月11.99ドル/月払い月29.99ドルで無制限利用と Agent モードが付き、チーム向けの Enterprise プランもあります。月100ドルの壁も、米国限定ベータも、夏まで待つ必要もありません。VoiceOSは WakoAI Inc. が開発し、Y Combinator（X25）に採択されており、macOSとWindowsで今日からダウンロードできます。

より大きな話：声は、Macの新しい標準インターフェースになる

テスラのダッシュボードの話と、GoogleのMacの話は、別の部屋で語られているだけで、本質的には同じ話です。車の中では、手と目が「運転」というタスクに固定されているから、ハンズフリー音声は「あったら便利」ではなく「ないと困る」。Macの上でも、手と目はすでにエディタやドキュメントの「いまやっている作業」に張り付いていて、同じ力学が働きます。音声は切り替えのコストを消し、フローを保ったまま、意図をアクションに翻訳してくれる。

音声がMacの主要入力として成立するためには、3つの条件が必要でした。基盤モデルが「文字起こし」だけでなく「考える・動く」までできること。プラットフォーム企業が本気でそこを取りに行くこと（Appleの Voice Control、GoogleのGemini for MacとSpark、OpenAIのGPT-Realtime-2と CarPlay音声、xAIの車載Grok）。そしてデザインパターンが安定すること（意図的なジェスチャ → フローティングUI → カーソル位置に整ったドラフトor完了したアクション）。2026年に、3つともそろいました。これがいま出荷されつつある「新しいMacのインターフェース」です。

ユーザーから見ると、今は不思議な時期に入っています。カテゴリ自体は本物です。最大級のテック企業が定義を取りに来ています。一方で、「発表」と「実際に手元で動く」の間に、まだ6〜12ヶ月の差があります。もし今日、毎日使っているあらゆるアプリで、月100ドルのサブスクなし、リージョン制限なしで、このループを動かしたいなら、選択肢は1つです。VoiceOS。GoogleがI/O 2026で予告したカテゴリは、VoiceOSがすでに営業しているカテゴリでもあります。

Macの上での音声は、もう「機能」ではありません。インターフェースです。Googleはそれを、テック業界でいちばん大きなステージで認めました。問うべきはもう「Macは音声ファーストであるべきか」ではなく、「今日、あなたのMacに乗っている音声レイヤーは何か」です。VoiceOSはWakoAI Inc.が開発し、Y Combinator（X25）に採択されています。

参考リンク

よくある質問（FAQ）

Gemini Sparkとは何ですか？Macではどんなふうに動きますか？

Gemini Sparkは、2026年5月19日のGoogle I/O 2026で発表された、24時間動くパーソナルAIエージェントです。専用のGoogle Cloud仮想マシン上で常時稼働し、ノートPCを閉じていても動き続けます。Gmail、カレンダー、Docs、Sheets、Slides、Drive、YouTube、Googleマップを含むWorkspaceの各アプリと、MCP経由でCanva、OpenTable、Instacartなどのサードパーティアプリにも接続して、ユーザーの指示のもとでアクションを実行します。Macに関しては、Mac版Geminiアプリに統合される形でこの夏ロールアウト予定で、ローカルファイル上の操作やデスクトップ横断のワークフロー自動化も担えるようになります。中で動いているのは新モデルのGemini 3.5 Flash。料金は月100ドルのGoogle AI Ultra経由で、ローンチ時点では米国限定です。

Gemini Macの新しい「Ramble」音声モードはどう動きますか？

GoogleがAndroid Gboard向けに発表した「Rambler」と同じ思想で、Mac版Gemini向けにも長押し型の音声体験が予告されています。MacのFキーを長押しすると、画面下にフローティングのピル状UIが現れ、しゃべっている間ずっと聞いてくれる。キーを離すと、Geminiが「um」「ah」のようなフィラーを除き、文中の言い直し（「3時、いや2時で」など）を解釈し、画面コンテキストを参照しながら、いま使っているアプリに合わせて整ったドラフトを生成し、それをそのままカーソル位置に挿入してくれる、という流れです。Mac版Geminiアプリ向けに、今後数週間でグローバルに展開される予定です。

Mac上でGemini Sparkを使うには、いくらかかりますか？

Gemini Sparkの入口は、ローンチ時点ではGoogle AI Ultraのみで、料金は月100ドルです。Ultraプランには、Gemini 3.5 Proへのアクセス、Gemini系機能のレート上限拡大、その他AI Ultra特典が含まれます。Googleは今後数週間でアクセスを拡大していくと表明しており、ゆくゆくはGoogle AI Pro帯のユーザーや一部の法人ユーザーにも開放される見込みですが、現状ではUltraが唯一の入り口です。Mac版Geminiアプリ自体と、新しい音声体験は、サブスクなしで全ユーザー向けに提供される想定です。

GeminiのMac向け音声機能とSparkは、いつ使えるようになりますか？

Mac版Geminiアプリ自体は、すでにgemini.google/macから無料でダウンロードできます。macOS 15以上で、Option + Spaceがグローバルショートカットです。新しい長押し音声モード（自然な発話を整ったドラフトに変換）は、今後数週間でグローバルにMac版Geminiアプリへロールアウト予定。Gemini Spark本体は、来週から米国の Google AI Ultra 契約者向けに、Android・iOS・WebのGeminiアプリでベータ提供が始まります。Mac版Sparkは、その夏に追って提供され、ローカルファイルとデスクトップ・ワークフローの自動化が含まれます。

GeminiのMac音声は、AppleのDictationやApple Intelligenceと何が違いますか？

macOSのApple Dictationはシステム機能で、主にカーソル位置に音声をテキスト化して書き込むツールです。Apple silicon搭載Macなら、対応言語ではオンデバイス処理にも対応します。Apple IntelligenceはWriting Toolsと、有効化したChatGPT拡張で書き換えや作文を支援できますが、入力としての音声はDictationを介して流れる形です。GeminiのMac音声モードはここが違って、画面コンテキストを使って「言った内容」ではなく「言いたかったこと」を解釈し、フィラーを除き、言い直しを修正し、ドラフト生成のステップを担います。文字起こしというより「下書きを作る音声」です。そして実装はシステム層ではなく、Geminiアプリとモデルに紐付いています。

今日、あらゆるアプリで使えるMacの音声エージェントはありますか？

あります。VoiceOSは、macOSとWindowsで今日動いている音声エージェントで、テキスト入力可能なあらゆるアプリ（Slack、Gmail、Notion、Googleカレンダー、Drive、Docs、Sheets、Linear、Cursor、VS Code、ChatGPT、Claudeを含む数百のアプリ）でシステム全体的に動作します。Googleが Mac版Geminiで予告した「キーを押して話す → 整ったドラフトが返ってくる」体験に相当する Dictate モードに加え、確認を挟みながらアプリ横断でマルチステップのアクションを実行する Agent モードも備えます。月100ドルのサブスクは不要、グローバルに利用可能、しかも「いまあなたが普段使っているアプリ」の中で動きます。Geminiのウィンドウの中だけ、ではありません。

2026年、Mac向けのAI音声アプリでいちばんおすすめは？

2026年、Macで「キーを押して話す → 文脈を踏まえた整ったドラフトが、いま使っているあらゆるアプリで返ってくる」体験と、Slack・Gmail・Googleカレンダー・Notion・Drive・Docs・Sheets を横断する複数ステップの音声アクションを今日から欲しい人にとって、最有力なのはVoiceOSです。macOSとWindows両対応で、7日間の無料トライアル付きで、年払いで月11.99ドルからのProプランがあります。Google WorkspaceにどっぷりのユーザーでGemini SparkとMac新音声機能の夏のロールアウトを待てる、かつ月100ドル払うのも厭わないという方にとっては、Google のMac版Geminiも有力な選択肢です。VoiceOSはWakoAI Inc.が開発し、Y Combinator（X25）に採択されています。

GoogleがMacに予告した体験を、今日から手元で

VoiceOSは、Mac/Windowsであらゆるアプリ全体に、キーを押して話すだけのコンテキスト対応音声レイヤーを提供します。月100ドルのサブスクも、夏まで待つ必要もありません。

VoiceOSをダウンロード