比較
VoiceOS vs Clicky
「音声入力」の時代から、「声でパソコンを動かす」時代へ。VoiceOSとClickyは、その変化を象徴する2つのプロダクトです。中でもClickyが注目される理由は、開発者がFarza Majeedだから。彼はbuildspace(YC S20採択、a16zから1,000万ドル調達)を立ち上げてきたシリアル起業家です。これだけの実績を持つファウンダーがカーソル横の音声エージェントに乗り出している事実は、voice-to-action(声でアプリを動かす)領域が確実に動き始めていることの証拠でもあります。

🇯🇵 日本語ユーザーの方へ: VoiceOSは日本語対応が充実しています。日本語UIのローカライズ、日本語カスタマーサポート、そして他社を圧倒する日本語の音声認識精度を実現しています。
共通点
どちらも「声でパソコンを使う」という発想は共通しています。Clickyはカーソルの隣に常駐し、ショートカットで呼び出すと画面を見ながら質問に答えたり、不慣れなアプリの使い方を案内してくれます。一方VoiceOSは、日々の業務に直結する設計です。どんなアプリでも音声入力でき、エージェントモードを使えばメッセージ送信、予定作成、ウェブ検索、ツール間の連携まで声だけで完結します。切り口は違いますが、同じ大きな波の中にあるプロダクトです。
VoiceOSの強み
VoiceOSが本領を発揮するのは、複数のアプリをまたいで「仕事を片づけたい」とき:
- どこでも使えるAI音声入力: どのアプリにも対応する音声入力。フィラー除去、文法修正、文体の自動調整、カスタム辞書まで揃っています。
- 本物のアプリ操作: Slackで返信、Gmailでメール送信、Googleカレンダーに予定追加、Notionの更新、Driveのファイル操作、DocsやSheetsの編集まで、すべて声で完結します。
- マルチステップの連続実行: 「ウェブで調べて、その内容をメールに入れて、関連する予定をカレンダーに入れて」。複数ツールにまたがる流れも、ひとつの音声コマンドで実行できます。
- チーム・エンタープライズ対応: 共有辞書、ナレッジベース、一括請求、SSO、データ非保存ポリシー、SOC 2 Type II準拠まで完備しています。
- Mac・Windows両対応: VoiceOSはMacとWindowsの両方で動きます。ClickyはMacが先行しており、Windows版は現在ウェイトリスト募集中です。
Clickyについて
Clickyには、VoiceOSとは違う独自の魅力があります。創業者の経歴まで含めて、追いかけておく価値のあるプロダクトです:
- 創業者の勢い: Farza MajeedはY Combinatorとa16zの両方から支援を受けたbuildspaceの創業者。本人のエッセイによると、a16zは前身となるZipHomeschoolに最初の200万ドルを出資し、その後buildspaceの1,000万ドルラウンドにも追加投資したとのこと。
- カーソル横で教えてくれる: 画面上のボタン、メニュー、パネルを実際に指し示しながら、操作を口頭で教えてくれます。
- 不慣れなツールの習得: Figma、DaVinci Resolve、After Effects、Photoshop、macOSの設定画面など、迷いがちなアプリのウォークスルーが特に得意です。
- オープンソースで触れる: GitHubリポジトリが公開されており、Claude、AssemblyAI、ElevenLabs、Cloudflare Workerを組み合わせた構成です。
- Clicky Agent: YCローンチと公式サイトでは、リサーチ、構築、PDFの要約とメール送信など、バックグラウンドで動くエージェント機能も紹介されています。
Clickyが示す、voice AIの新しい波
Clickyのおもしろさは、プロダクトそのものだけにとどまりません。「誰が」「どこから」これを出しているのか、という点も見逃せないポイントです。Farzaはvoice AI界隈にゼロから参入したわけではなく、buildspaceという大規模ビルダーコミュニティを立ち上げてきた実績の持ち主。YCのプロフィールでは、buildspaceは「ソフトウェア、音楽、映画まで、あらゆるアイデアに挑戦できる場所」と紹介されています。a16zはZipHomeschool時代から彼を支援し、buildspaceの1,000万ドルラウンドでも追加投資しました。
つまりvoice-to-actionは、もはやニッチな音声入力カテゴリではないということです。実績ある創業者たちが、音声を次世代コンシューマーAIのインターフェースとして本気で扱い始めています。Clickyはその一形態。カーソル横で動く、遊び心ある相棒。そしてVoiceOSは別の形。話したことを文章と実務に変える、業務向けのプロダクトです。
Clickyの実像
公式サイトでClickyは「Macに住むAIバディ」と紹介されています。カーソルのすぐ横にいて、画面を見ながら、声で質問できる存在。たとえば「DaVinci Resolveでカラーグレーディングする方法を教えて」「このAfter Effectsのパネルって何?」といった、画面の文脈に基づくヘルプが基本のユースケースです。
YCローンチでは、その先のエージェント機能にも触れられています。Notion、Gmail、Calendarと連携でき、Instagramのマイクロインフルエンサー調査、Macアプリのローカル生成、PDFを要約してチームへメール送信、といった例が挙げられています。公式サイトでは「Figmaのデザインを動くWebページに変換」「1,000ドル以下のカメラを探す」といったユースケースも紹介されています。
Lifehacker/Yahooの体験レビューでは、操作感がより詳しく語られています。ショートカットで起動、必要なときだけ画面を一時的にキャプチャ、メニューやボタンを実際に指で差すように案内、応答は音声でもテキストでもOK。チャットボットというより、デスクトップに住む小さなガイド、という感覚に近いと評されています。
VoiceOSはこの波のどこにいるか
Clickyが示しているのは、「画面を理解して、声で動くAI」へのユーザーニーズの確かさです。VoiceOSは同じ方向性を、日々の業務にフォーカスして突き詰めています。UIの使い方を案内するのではなく、Slackで返信を送り、カレンダーに予定を入れ、Notionを更新し、ウェブで情報を集め、それらを一連の流れで実行する、というところまで設計されています。
言うなれば、「声で助けてもらう」プロダクトと、「声で実行する」プロダクトの違いです。どちらも大事で、Clickyはユーザーの熱量と創業者のエネルギーでカテゴリ全体を盛り上げる役割を担っています。VoiceOSは、その盛り上がりを日々の業務で実用化することに振り切ったプロダクトです。
参考リンク
コンテキストスイッチという敵
このカテゴリが重要な理由は、まさにここにあります。音声ツールの第一波は「音声入力」、要はタイピングを高速化するためのものでした。次に来ているのが「voice-to-action」、欲しい結果を声で伝えると、エージェントがアプリをまたいで実行してくれる世界です。Clickyは画面認識ガイドと遊び心ある相棒として、その未来の一面を見せています。VoiceOSは「このSlackに返信して、会議を入れて、資料を送って」を、今いるアプリから離れずに完結させる、日々の業務レイヤーに集中しています。
機能を並べてみた
| 機能 | VoiceOS | Clicky |
|---|---|---|
| 処理速度 | 300ms | Not specified |
| 認識精度 | 98%+ with context | Not specified |
| すべてのアプリでAI音声入力 | ✓ | ✗ |
| 画面文脈を使った音声Q&A | ✓ | ✓ |
| カーソル横の視覚ガイド | ✗ | ✓ |
| エージェントモード(声で操作) | ✓ | Clicky Agent |
| 複数アクションの連続実行 | ✓ | Agent tasks |
| 音声でウェブ検索 | ✓ | ✓ |
| Slackメッセージ送信 | ✓ | ✗ |
| Gmailメール送信 | ✓ | ✓ |
| Googleカレンダー予定作成 | ✓ | ✓ |
| Notionページ管理 | ✓ | ✓ |
| Googleドライブ管理 | ✓ | ✗ |
| Google Docs・Sheets操作 | ✓ | ✗ |
| 辞書登録 | Automatic + manual | ✗ |
| 文体パーソナライズ | ✓ | ✗ |
| オープンソース | ✗ | ✓ |
| セルフホスト可能なAPIプロキシ | ✗ | ✓ |
| SOC 2 Type II | ✓ | ✗ |
| チーム機能 | Dictionary, knowledge base, billing | ✗ |
| macOS | ✓ | ✓ |
| Windows | ✓ | Waitlist |
| iOS | Coming soon | ✗ |
VoiceOSとClicky、どっちがいい?
Clickyがおすすめ: Macに限定でも構わない、画面を見ながらUIを指差して教えてくれるAIチューターが欲しい人。立ち上げ間もないオープンソースプロジェクトを楽しめる人にもおすすめです。
VoiceOSがおすすめ: 高速な音声入力に加えて、Slack、Gmail、カレンダー、Notion、Google Drive、Docs、Sheets、ウェブまで、声で動くワークフローを日常的に使いたい人。VoiceOSは「話したことを、終わった仕事に変える」ために作られています。