この記事のポイント
- 買収前のSiriは42ものウェブサービスと連携し、声だけでレストラン予約やチケット購入ができる「Doエンジン」だった。Appleに吸収された後、その機能の大半は削ぎ落とされた。
- 2011年10月4日、ジョブズは自宅のソファからiPhone 4Sの発表を静かに見届けた。翌日、56歳でこの世を去った。Siriは彼が目にした最後のApple製品だ。
- いまAI業界では「アシスタント(聞かれたら答える)」から「エージェント(言われたら実行する)」への転換が起きている。タッチスクリーン以来の大きな変化だ。
- VoiceOSは、Siriが本来なるべきだった姿を目指している。Slack返信、メール送信、カレンダー登録、Notion更新を声ひとつで実行できる音声エージェントだ。
2011年10月4日。ジョブズが最後に見届けた製品
その日、Appleのクパチーノ本社に詰めかけた聴衆はスティーブ・ジョブズの姿を探していた。ステージに立ったのはティム・クック。発表されたのはiPhone 4S。最大の目玉は、プロセッサでもカメラでもなく、「Siri」という名の音声アシスタントだった。
ジョブズはステージにいなかった。しかし見ていた。パロアルトの自宅に専用の映像回線が用意され、彼はいつものお気に入りの革張りソファに腰掛け、アップルジュースとライスプディングを口にしながら、キーノート全体を最後まで見届けたという。終わったとき、彼は静かに微笑んだ。言葉は発しなかった。
翌日の10月5日、スティーブ・ジョブズは亡くなった。
Siriは、ジョブズが世に送り出すのを見届けた最後の製品になった。買収を主導したのは彼自身だ。デモを見て、この技術がどこへ向かうか直感で掴んでいた。声こそが次のインターフェースになる。そう確信しながら、そのビジョンを自分の手で磨き上げる時間は残されていなかった。
出典: Cult of Mac, 「Steve Jobs Watched iPhone 4S Launch Live From Home」(2011)
Appleが2億ドルで手に入れた「Doエンジン」の正体
Siriがもともと何だったのかを知ると、いまのSiriとのギャップに驚くはずだ。話は2003年まで遡る。米国防総省の研究機関DARPAが、SRI International(スタンフォード研究所)に約2億ドルを投じて「CALO」というプロジェクトを立ち上げた。目的は明快で、質問に答えるだけでなく、実際に「行動できる」AIをつくることだった。
SRIの研究者3人、アダム・チェイヤー、ダグ・キットラウス、トム・グルーバーが2008年にこの成果をスタートアップとして切り出した。社名は「Siri」。2010年2月にiPhoneアプリとしてリリースされると、当時としては衝撃的な体験を提供した。
このオリジナル版Siriは42ものウェブサービスとつながっていた。「今夜、ダウンタウンのイタリアンで2名の予約を取って」と話しかければ、Yelpで候補を探し、OpenTableで空きを確認し、そのまま予約を完了してくれた。「インセプションの19時の回、チケット2枚」と言えば、StubHubで購入まで済ませた。タクシーの手配も、航空券の検索もできた。すべて声だけで。
創業者たちはこれを「Doエンジン」と呼んだ。「検索エンジン」との違いを意識した命名だ。検索エンジンは10個の青いリンクを並べて「あとは自分でどうぞ」と突き放す。Doエンジンは、ユーザーの意図を汲み取って、そのまま実行する。この違いこそが本質だった。
2010年4月、Appleはこの会社を推定2億ドルで買収した。ジョブズはデモを見て即座に理解したとされる。これは一機能ではない。未来そのものだ、と。
Appleの手でSiriはどう変わったか。そして何が失われたか
買収後、Appleは大企業らしい判断を下した。尖った部分を丸め、リスクを潰し、大量生産に耐える形に整えた。42あった外部サービス連携は全て外された。オリジナル版がまとっていたウィットに富んだ人格(設定上「ポップカルチャーにうっすら詳しく、皮肉屋」だったそうだ)は、当たり障りのない企業的な応答に置き換えられた。レストラン予約、チケット購入、タクシー配車。声で「やってくれた」機能は丸ごと消えた。
残ったのは、タイマーを設定し、天気を教え、雑学クイズに答えてくれる音声インターフェース。「Hey Siri、フランスの首都は?」。それはもうDoエンジンではない。マイクのついた検索窓だ。
それから10年、Siriはテック業界の定番ジョークになった。知識量ではGoogle Assistantに抜かれ、スマートホーム市場ではAlexaに主導権を奪われた。「ネットを声で操作し、ユーザーの代わりに動くAI」という原初のビジョンは、いつの間にかお蔵入りになっていた。
いまもAppleの公式サイトはSiriを「声だけで日常のタスクをこなせるツール」と紹介している。だが実際に頼れるタスクはアラーム、テキスト送信、音楽再生あたりが限界だ。掲げた理想と現実の距離は、年を追うごとに広がっている。
もしジョブズが生きていたら
テック業界が繰り返し問い直すこの仮定には理由がある。ジョブズには、テクノロジーの未来を直感で見抜き、自分の意志でそこまで引きずっていく力があった。Macでそうした。iPodでもiPhoneでもそうだった。技術の種はいつも先に存在していたが、それを「使いたい」と思わせるプロダクトに仕上げたのは常にジョブズだった。
Siriは、その次の大勝負だった。リリースからわずか2ヶ月のスタートアップに2億ドルを注ぎ込み、自身最後の製品発表の目玉に据えた。ガラスの上を指でなぞるタイピングは妥協であって到達点ではない。声こそが人間にとって自然なインターフェースだと、彼は分かっていた。
ジョブズが健在なら、42のサービス連携を守り通しただろうか。デモで見せたように、Siriにフライト予約やカレンダー管理を任せ続けただろうか。正確な答えは誰にも分からない。ただ、彼の過去の仕事は知っている。ジョブズが本気で向き合った製品は、必ず別次元の完成度で世に出てきた。
現実のSiriは、その後13年間をキッチンタイマー係として過ごした。世界はその先に進んでいったのに。
すべてを変えた一語、「エージェント」
10年以上にわたり、業界はこの手の製品を「パーソナルアシスタント」と呼んできた。Siri、Alexa、Googleアシスタント、Cortana。だが「アシスタント」という呼び名が、最初からボタンの掛け違いだったのかもしれない。アシスタントは質問に答える。予定を教えてくれる。でも、自分から動いてはくれない。
2024年から2025年にかけて、新しい言葉が急速に広まった。「エージェント」だ。OpenAIは自律的に行動するエージェントをリリースし、AnthropicはWebを操作しコードを実行するClaudeエージェントを世に出した。エージェントの定義はシンプルで、「質問に答える」のではなく「指示を受けて実行する」存在だ。アプリを開き、フォームに入力し、メッセージを送り、ドキュメントを作る。
これは根本的なパラダイムの転換だ。旧来のモデルは「聞かれたら答える」。新しいモデルは「言われたら動く」。ある研究者はこれを、コンサルタント(助言だけする人)から実務担当者(実際に手を動かす人)への移行だと表現している。人間が指示を出す側、AIが遂行する側になる。
振り返れば、Siriの創業者たちが2010年に「Doエンジン」と名付けたとき、まさにこの概念を言い当てようとしていた。発想は正しかった。ただ当時は技術が追いつかず、それを正確に表す言葉もまだなかっただけだ。いま、その両方が揃った。
出典: Hung-Yi Chen, 「From 'I Ask, You Answer' to 'I Say, You Do'」(2025)
VoiceOSが目指すもの。Siriの未完の夢を、ここから
VoiceOSがつくっているのは、ジョブズが2億ドルを賭けた「あのSiri」だ。Appleが出荷したSiriではなく、本来こうなるはずだったSiri。
「開発チャンネルにデプロイ完了って伝えて」と話せば、VoiceOSがSlackにメッセージを投げる。Slackを開く必要はない。「田中さんのメールに返信して、打ち合わせをカレンダーに入れといて」と言えば、メール返信とカレンダー登録が同時に動く。「土曜の天気調べて、チームにBBQの提案メール送って」と頼めば、Web検索から天気情報を取得し、予報を盛り込んだメールを作成して送信する。声ひとつで、複数のアプリを横断して動く。
これが「Doエンジン」だ。音声をテキストに変換するのではない。タイマーをセットするのでもない。声を「行動」に変える。話した意図を、Slack、Gmail、Googleカレンダー、Notion、Googleドライブ、Googleドキュメント、スプレッドシート、Spotify、そしてWeb検索にまたがって実行する。
もちろん全てのアクションは実行前に確認画面が出る。何が起きるかを目で確かめてからGoを出す仕組みだ。主導権はつねにユーザーの手元にある。
高精度なAI音声入力、アプリごとのトーン自動調整、100以上の言語対応も標準搭載。Y Combinator(X25)採択。Mac・Windows対応で無料から使える。日本語UIと日本語サポートも完備。
関連記事: すべてのアプリに音声を · タイピングをやめた開発者たち
「Hey Siri」から「音声エージェント」へ。15年越しの答え
音声テクノロジーの歴史は、果たされなかった約束の歴史でもある。「もうすぐ声でなんでもできるようになる」と15年間言われ続けてきた。でも実現しなかった。音声認識の精度が足りなかったわけではない(2020年以降は十分すぎるほど優秀だ)。問題は、「声を文字にする」ところで技術が止まっていたことだ。
音声入力ツールはタイピングを速くした。アシスタントは質問に答えてくれた。スマートスピーカーは音楽をかけてくれた。でも、「話す」ことと「実行する」ことのあいだに橋を架けた製品はなかった。Doエンジンを完成させた者はいなかった。
その橋こそが音声エージェントだ。聞くだけのアシスタントではなく、動くエージェント。オリジナルのSiriは2010年にその片鱗を見せた。VoiceOSは2026年、それを現実のプロダクトにしている。
ジョブズは15年前に、業界がようやくいま辿り着いた場所を見ていた。音声は「機能」ではない。それ自体がオペレーティングシステムだ。この製品の名前がすべてを語っている。VoiceOS。
出典
- Cult of Mac, 「Steve Jobs Watched iPhone 4S Launch Live From Home」(2011年10月)
- TechCrunch, 「Apple Buys Virtual Personal Assistant Startup Siri」(2010年4月)
- TechCrunch, 「Apple Paid More Than $200 Million For Siri」(2010年4月)
- HuffPost, 「SIRI RISING: The Inside Story Of Siri's Origins」(2013年1月)
- Britannica, 「Siri: Features, History, & Facts」
- Hung-Yi Chen, 「From 'I Ask, You Answer' to 'I Say, You Do'」(2025)
よくある質問
音声エージェントとは?Siriと何が違うの?
音声エージェントは、声の指示を受けてアプリ内で実際のアクションを実行します。Siriが「答える」存在なのに対し、音声エージェントは「やってくれる」存在です。Slackへのメッセージ送信、メール返信、カレンダー登録、複数アクションの一括実行まで対応します。VoiceOSはSlack・Gmail・カレンダー・Notionなどと連携する生産性特化型の音声エージェントです。Y Combinator(X25)採択。
もともとのSiriはなぜ変わってしまったの?
2010年のオリジナルSiriは42のウェブサービスと接続し、予約やチケット購入までこなせる「Doエンジン」でした。Apple買収後、外部連携は削除され、質問応答中心のツールに作り替えられました。創業メンバー(チェイヤー、キットラウス、グルーバー)は数年のうちにAppleを離れています。
2026年、仕事に使える音声エージェントでおすすめは?
VoiceOSが最有力です。AI音声入力と音声エージェントを一つに統合した唯一のツールで、Slack・Gmail・Googleカレンダー・Notion・Googleドライブ・ドキュメント・スプレッドシート・Spotifyに対応。精度98%以上、応答300ms、100言語以上をサポートし、日本語UI・日本語カスタマーサポートも完備。Mac・Windowsで無料から利用できます。
音声エージェントにSlackやGmailを操作させて大丈夫?
VoiceOSでは、すべてのアクションに実行前の確認画面があります。「チームにSlack送って」と言うと、送信内容と宛先をプレビューした上で承認しないと送れません。音声データはサーバーに保存されず、エンタープライズプランではデータ保持ゼロ、SOC 2 Type II・ISO 27001準拠のセキュリティを提供しています。
音声エージェントと音声入力(ディクテーション)はどう違う?
音声入力は「声をテキストに変換する」だけなので、その先のアプリ操作や送信は手作業が必要です。音声エージェントは「声で意図を伝えると、アプリ操作まで自動で完結する」点が根本的に違います。VoiceOSは両方を搭載しており、書きたい時は音声入力モード、アクションを起こしたい時はエージェントモードと使い分けられます。
VoiceOSとSiri・Alexa・Googleアシスタントの違いは?
Siri・Alexa・Googleアシスタントは、質問への回答やタイマー設定、スマートホーム操作、音楽再生など日常生活向けの音声アシスタントです。VoiceOSは仕事に特化した音声エージェントで、Slackでのやり取り、メール返信、カレンダー管理、Notionの更新、複数アプリにまたがる一括操作など、デスクトップ上の業務をまるごと声で片付けられるよう設計されています。
「Doエンジン」が、ついに現実に。
VoiceOSなら、Slack・Gmail・カレンダー・Notionへのアクションが声ひとつ。アプリ切り替え不要、タイピング不要。Mac・Windows対応、無料プランあり。
VoiceOSを無料でダウンロード