すべての記事
Opinion

音声が新しいインターフェースになる: SiriからGoogle Stitchまで、大手テック企業が本気で動き出した

Googleがデザインツールに音声機能を搭載。AppleはSiri強化にGoogleへ年間10億ドル。AnthropicはClaude Codeに音声モードを実装。方向性は明確です。

Kai Brokering

著者

Kai Brokering

更新日

2026年3月19日

音声が新しいインターフェースになる: SiriからGoogle Stitchまで、大手テック企業が本気で動き出した

大手テック企業が、音声に本気で向かい始めた

ここ数ヶ月で、何かが明確に変わりました。世界最大級のテクノロジー企業が、音声を「おまけ機能」や「アクセシビリティ対応」としてではなく、プロダクトの中核として組み込み始めています。

2026年1月、AppleはGoogleと複数年契約を締結し、次世代Siriの基盤としてGeminiを採用することを発表しました。年間約10億ドルの契約です。OpenAI、Anthropic、Googleのモデルを検証した結果、Appleは「Googleの技術がApple Foundation Modelsにとって最も優れた基盤になる」と結論づけました。

同じ2026年3月には、AnthropicがClaude Codeにネイティブ音声モードを搭載。開発者がプロンプトをタイピングする代わりに、コーディングアシスタントに話しかけられるようになりました。ほぼ同時期に、GoogleはAIデザインツール「Stitch」の大型アップデートを実施し、音声によるUI設計機能を追加しています。

これらは小規模な実験ではありません。何億人ものユーザーに影響を与える企業による、数十億ドル規模の戦略的な投資です。そして全員が同じ結論にたどり着いています。音声こそが、人間とコンピュータのインタラクションの未来だと。

Google Stitch: 声でデザインする時代

Google Labsが開発するStitchは、AI搭載のデザインツールです。最新アップデートでGoogleが提唱するのは「Vibe Design」というコンセプト。ボックスをドラッグしてピクセルを調整する代わりに、キャンバスに話しかけてデザインします。

「メニューのバリエーションを3つ出して」と言えば、3種類の異なるデザインが生成されます。「この画面を別の配色で見せて」と頼めば、その通りに。デザインエージェントと会話しながら、フィードバックをもらい、代替案を検討し、アイデアを磨いていけます。すべて自然な言葉で。

Google Stitch voice mode interface

Stitchの音声モードは、単なるマイクボタンではありません。デザインワークフローに深く統合されています。音声セッション中にマウスでキャンバスの特定セクションをホールド&ドラッグで選択でき、AIにどのコンポーネントについて話しているかを正確に伝えられます。「ボタンを変えて」と言ってAIが正しいものを選ぶことを祈るのではなく、話しながら要素を直接指定できる。この空間認識により、音声コマンドはテキストプロンプトだけよりはるかに正確になります。

Google Stitch voice mode capture and drag to select components

また、Stitchではデザインエージェントの音声を8種類から選ぶことができます。Puck、Charon、Kore、Fenrir、Autonoe、Leda、Orus、Zephyr。それぞれの音声には個性とリズムがあり、機械に命令するのではなく、本物のコラボレーターと働いているような体験になります。細かいレビューには落ち着いたトーンを、ブレインストーミングにはエネルギッシュなトーンをと、デザインパートナーの声をカスタマイズできます。小さなディテールですが、長時間のセッションでワークフローがどれだけ自然に感じるかに大きな違いを生みます。

Google Stitch voice selection with 8 voice options
Stitch offers eight AI voice personas to choose from

新しいAIネイティブの無限キャンバスでは、ラフスケッチから動くプロトタイプまでシームレスに発展させることができます。デザインエージェントはプロジェクト全体の変遷を理解し、今のリクエストだけでなく、デザインがどう進化してきたかを踏まえて提案します。

さらにStitchは、Cursor、Claude Code、Gemini CLIといったコーディングツールとSDK/MCPサーバー経由で直接接続可能。デザイナーと開発者の間で何日もかかっていたやり取りが、一回の音声セッションで完結する世界が見えてきています。

すべてはSiriから始まった

音声を主要インターフェースにするというビジョンは、決して新しいものではありません。スティーブ・ジョブズは15年以上前にその可能性を見抜いていました。

2010年4月、AppleはSiriを買収しました。サンノゼの小さなスタートアップで、2,400万ドルを調達して音声アシスタントを開発していた企業です。同年のAllThingsDカンファレンスでジョブズは「彼らがやっていることをとても気に入っている」と語り、Siriの人工知能への注力を買収の理由に挙げました。

Siriは、ジョブズが最後に深く関わったプロジェクトのひとつとなりました。膵臓がんで体調が悪化する中でも、Siriの使いやすさにこだわり、チームと一緒に体験の質を追求し続けました。Siriを目玉機能としたiPhone 4Sが発表されたのは2011年10月4日。ジョブズはそのわずか翌日、10月5日にこの世を去りました。iPhone 4Sが実際にユーザーの手に届いたのはその10日後のこと。ジョブズがSiriの完成形を見届けることは叶いませんでした。

ジョブズが理解していたのは、根本的な事実です。人間は声でコミュニケーションするようにできている。キーボードでも、タッチスクリーンでも、マウスでもなく。私たちは読み書きを覚えるずっと前に話すことを覚えます。音声は最も自然で、最も直感的なインターフェースです。学習コストがゼロだからこそ、最もアクセシブルでもある。

音声が勝つ理由

音声は最も自然な入力方法であるだけでなく、最も速い方法でもあります。

一般的なタイピング速度は1分間に約40語。上級者でも80語程度です。しかし話す速度は平均で1分間130語、ゆとりを持っても150語に達します。タイピングと比べて3倍の速さです。

速度だけではありません。音声は、他のどのインターフェースにもない形で摩擦を取り除きます。話すのに画面を見る必要はありません。ショートカットキーを覚える必要もありません。メニュー構造を理解する必要もありません。やりたいことをそのまま言えばいい。

そして、最も学びやすいインターフェースでもあります。子供でも使える。両親でも使える。オンボーディングもチュートリアルもトレーニング期間も不要。話し方はもう知っている。だから音声は、速いだけでなく、これまで作られたどんなGUIよりも根本的にインクルーシブなのです。

コンピュータが「話し返す」とき

GoogleがStitchで実現したのは、音声入力だけではありません。デザインエージェントは聞くだけでなく、応答します。あなたの作品を批評し、代替案を提案し、デザインについて対話します。隣に座っている同僚のように。

この双方向の音声インタラクションは、ユーザーとツールの関係性を根本から変えます。テキストボックスはトランザクション的です。入力して、結果が返ってくる。一方、音声の対話はリレーショナルです。ツールがより生きている感じがする。クリエイティブなパートナーのように感じる。より個人的で、より温かみがあって、より人間的。

ツールが声で返してくれるとき、それはもう「ツール」ではなく「相棒」になります。それはまったく異なるプロダクト体験であり、すべての主要なAIプロダクトが向かっている方向です。

VoiceOSの現在地

VoiceOSは、まさにこの確信のもとに作られています。音声がコンピュータ操作の主役であるべきだ。一つのアプリだけでなく、すべてのアプリで。

現在のVoiceOSは、あらゆるアプリで音声入力が可能で、Gmail、Slack、Notion、コードエディタなど使用中のアプリに合わせてフォーマットを自動調整します。Agentモードでは、Googleカレンダー、Gmail、Slackなどの外部サービスと連携し、どこからでも音声でタスクを実行できます。Askモードは画面上の内容について質問でき、Editモードは音声でテキストを書き直したり構成を変えたりできます。

VoiceOSにはまだ、コンピュータが声で応答する「音声出力」機能はありません。それはこれから実装していきます。しかしStitchのようなツールが示しているのは、音声が双方向になったときに体験がどれほど豊かになるかということ。AIが聞くだけでなく声で返してくれると、機械を操作している感覚から、機械と協力している感覚に変わります。

私たちは、Google、Apple、Anthropicと同じ未来を見ています。音声は最も自然で、最も速く、最もインクルーシブなインターフェース。その基盤の上に今日構築している企業が、明日の働き方を定義する企業になる。VoiceOSはその一つであり、日本語UIと日本語カスタマーサポートを備えた唯一の音声AIツールです。

これからの未来

今、転換点にいます。テクノロジーがようやく、2010年にジョブズが描いたビジョンに追いついたのです。音声認識の精度は97%を超え、大規模言語モデルはニュアンスや文脈、意図を理解できるようになりました。遅延はリアルタイム会話に十分なレベルまで低下。インフラがついに整いました。

次の波は、個別のプロダクトに音声を追加することではないでしょう。音声がすべてをつなぐレイヤーになることです。メール、カレンダー、ドキュメント、コード、デザインツール、ブラウザ。10個のアプリに10個の音声機能ではなく、あなたが誰で、何に取り組んでいて、どう助けるべきかを知っている、たった一つの音声インターフェース。

それが、VoiceOSが構築している世界です。そしてGoogle、Apple、Anthropicが今四半期に出荷したものを見れば、この方向性を信じているのは私たちだけではないことは明らかです。

音声ファーストの生産性を体験する

VoiceOSはあなたのパソコンのすべてのアプリで動作します。音声入力、タスク実行、質問、テキスト編集。すべて声だけで。Mac / Windows対応、日本語サポート完備。無料でダウンロードできます。

VoiceOSをダウンロード