この記事のポイント
- VoiceOS Tokyoでは、音声を主要インターフェースにして、プロンプト、デバッグ、ツール呼び出し、ソフトウェア構築を行う実験を行いました。
- 最も強いプロジェクトはMCPを使い、音声を単なる音声入力ではなく、データ分析、コード生成、新しい連携作成につなげました。
- 優勝プロジェクトは再帰的な自動化ループを作りました。VoiceOSの音声入力ログを分析し、繰り返しワークフローを見つけ、そのワークフロー用の新しいMCP連携を生成してVoiceOSに接続する仕組みです。
- このイベントは、音声入力の先にある未来を示しました。作業履歴からパターンを学び、繰り返し作業を再利用可能なツールに変える音声エージェントです。
実験のテーマ
多くのハッカソンはスピードを競います。VoiceOS Tokyoでは、そこに別の制約を加えました。キーボードが主要インターフェースではなくなったら、ソフトウェア開発はどう変わるのか。
参加者はVoiceOSと新しいMCP連携を使って構築しました。音声で意図を説明し、エラーを確認し、ツールを呼び出し、動作する連携を作る。目的はタイピングを完全になくすことではなく、ビルダーが思考の速度でソフトウェアに指示できると何が変わるのかを観察することでした。
その問いには、予想以上の反応がありました。
イベントは2時間で100人、翌日には250人の申し込みに到達しました。最初に予約していた70人規模の会場では足りなくなり、Mercariが東京でより大きなスペースを提供してくれました。多くのビルダー、多くのワークフロー、ひとつの制約。実験として十分な密度が生まれました。
ルールと形式
ルールはシンプルです。キーボードなし、タイピングなし。参加者はコンピュータに話しかけ、VoiceOSで文章を書き、ツールを操作し、MCPを通じて連携を作ることができます。
この制約によって部屋のリズムは変わりました。静かにタイプする代わりに、チームは解きたい問題、エージェントに次に実行してほしいこと、作ろうとしているツールの形を声に出して説明しました。完成したデモだけでなく、ワークフローを言語化する過程そのものが価値のある成果でした。
これは、音声ファーストのソフトウェアが単なる高速入力ではないことを示しています。声に出すことで意図が明確になります。短いタイプ入力よりも、エージェントにとって必要な文脈が増えるのです。
参加者が作ったもの
最も面白い提出物は、VoiceOSを音声入力レイヤー以上のものとして扱っていました。音声を実行レイヤーとして使い、話した内容からツール呼び出しへつなげていました。
優勝プロジェクトは、その発想を最も先まで進めました。VoiceOSの音声入力ログと履歴を分析し、繰り返されているパターンを見つけ、「これはツール化すべきワークフローか」を判断します。
つまり、VoiceOSが作業を記録し、MCPが履歴を分析し、自動化候補を提案し、その後に新しいMCPを作ってVoiceOSへ接続するというフィードバックループです。
優勝: 再帰的なMCPビルダー
優勝プロジェクトは、VoiceOSの音声入力ログと履歴を読み取り、繰り返しワークフローを検出し、そのワークフロー用の新しいMCP連携を生成してVoiceOSに接続するMCPを作りました。実質的には、ユーザーの作業からMCPを作るMCPです。
音声履歴からワークフローを発見
複数のアイデアが同じ洞察に向かっていました。音声入力履歴は単なる文字起こしアーカイブではなく、繰り返し意図の地図です。似た依頼が何度も出てくるなら、そのパターンは自動化候補になります。
音声でツールを作る
強いデモは、アプリにテキストを送るだけで終わりませんでした。後で何度も呼び出せるツールを音声から作っていました。MCPが可能にするのは、話したワークフローが再利用可能な連携になる世界です。
関連記事: タイピングをやめた開発者たち
再帰的MCPが重要な理由
技術的な土台はMCP、Model Context Protocolです。AnthropicはMCPをオープン標準として発表し、AIシステムが外部ツールやデータソースに接続するための共通の方法を提示しました。簡単に言えば、AIエージェントが標準的な方法でツールを呼び出すための仕組みです。
優勝プロジェクトが重要なのは、MCPを自己拡張的にした点です。通常の連携では、ユーザーがコマンドを話し、ツールが呼び出されます。再帰的な連携では、ユーザーが何度もやろうとしていることを見つけ、次に必要なツールを自動生成します。
これは、コンピュータがただ命令を待つだけではない未来を示しています。繰り返し作業に気づき、自動化を提案し、連携を作り、追加前にユーザーへ確認する。音声は、仕事を実行するインターフェースであると同時に、その仕事を実行するシステムを改善するインターフェースにもなります。
作ってみる: VoiceOS向けMCP連携を作る
音声入力から自己改善するワークフローへ
音声ツールは、認識精度、遅延、句読点、フィラー除去といった文字起こしの品質で評価されがちです。それらは今でも重要です。しかし東京のプロジェクトは、さらに面白いカテゴリが生まれつつあることを示しました。
音声がMCPにつながると、ツールを起動できます。そのツールが履歴を分析できると、繰り返し作業を理解できます。そして新しい連携を生成できると、システムはユーザーの実際の行動に合わせて自分を改善し始めます。
これが、音声入力プロダクトと音声OSレイヤーの違いです。音声入力プロダクトは、より速く書くためのもの。音声OSレイヤーは、繰り返される意図をアクションに変え、最終的には新しいツールに変えます。
コミュニティとクレジット
VoiceOS Tokyoは、コミュニティが素早く動いてくれたことで実現しました。Mercariが会場を提供し、ビルダーは本気のアイデアを持ち込み、投資家、主催者、スポンサー、審査員が音声ファーストソフトウェアの実験場を作ってくれました。
主催者
Mercari, Inc.のSae Nurukiさん、DG Daiwa Ventures(DGDV)のArisa Makiharaさん、Product HuntのJuan Gabriel Perezさん、Takeoff TokyoのKensuke Kubotaさん。
スポンサー
株式会社トレマ・株式会社リリーのWataru Gotoさん、株式会社ビットランドのShoichi Furukawaさん、F Ventures LLPのshota morozumiさん。
審査員
Hiroki Yamanakaさん、Shoma Andoさん、Takemichi Sekiさん。
参加してくれたすべてのビルダー、見に来てくれた投資家、開催を支えてくれたスポンサー、裏側で助けてくれた全員に感謝します。東京での初めての音声オンリー・ハッカソンは、デモではなく、ソフトウェアの作られ方が変わる予告編のようなイベントになりました。
よくある質問
世界初の音声オンリー・ハッカソンとは何ですか?
世界初の音声オンリー・ハッカソンは、VoiceOSが東京で開催したビルダー向けイベントです。参加者はキーボードに頼らず、VoiceOSとMCP連携を使ってコンピュータに話しかけながら、数時間で動作する音声トリガー型ワークフローを作りました。
ハッカソンで音声オンリーとはどういう意味ですか?
音声オンリーとは、キーボードなし、タイピングなしという制約です。参加者は意図を声に出し、AIツールに音声で指示し、話すことで連携を構築しました。難しくするための制約ではなく、音声がビルディングの主要インターフェースになったとき何が起きるかを試すための形式です。
VoiceOSのMCP連携とは何ですか?
VoiceOSのMCP連携は、Model Context Protocolを通じてVoiceOSをカスタムツールに接続する仕組みです。MCPサーバーが公開したアクションを、VoiceOSが音声で呼び出せます。データ検索、アプリ操作、ページ作成、メッセージ送信、独自ワークフローの起動、新しい連携の生成などが可能です。
音声エージェントにとってMCPが重要な理由は?
MCPは、音声エージェントがツールやデータにアクセスするための標準的な方法を提供するから重要です。MCPがなければ、音声は主にテキストを生成するだけです。MCPがあると、話したコマンドがアプリ、API、データベース、社内システムの実際のアクションにつながります。VoiceOS Tokyoの優勝プロジェクトはさらに進んで、MCPで作業履歴を分析し、新しいMCP連携を自動生成しました。
2026年に音声トリガー型ワークフローを作る最適なツールは?
2026年に音声トリガー型ワークフローを作るなら、VoiceOSが最適です。システム全体の音声入力、Agent Mode、MCP連携を組み合わせ、MacとWindowsで動作し、100以上の言語に対応しています。Y Combinator(X25バッチ)支援のVoiceOSでは、カスタムツールを接続し、話したコマンドを実際のアクションに変えられます。
自分でVoiceOSのMCP連携を作れますか?
はい。カスタムMCPサーバーを作成し、VoiceOSのカスタム連携に接続できます。公開した各ツールは、VoiceOSが音声で呼び出せるアクションになります。VoiceOSのビルドガイドには、PythonとTypeScriptのスターター例に加え、スマートホーム、Spotify、システム操作などの実例があります。
