この文書は元の英語版を機械翻訳したものです。翻訳版と英語版の間に相違がある場合は、英語版が優先されるものとします。 英語版の原文を読む
音声:話す・聴く
AIに応答を読み上げさせたいですか?あるいはタイピングの代わりにメッセージを口述したいですか?Caiiooは音声の入力と出力を提供します。すべて設定可能で、一部はデバイス上でローカルに動作します。

音声出力 (Text-to-Speech)
AIに回答を読み上げさせることができます。以下のオプションから選択してください:
| オプション | タイプ | 品質 | セットアップ |
|---|---|---|---|
| Browser Voices | ローカル | 標準 | 無料、設定不要 |
| Kokoro | ローカル | 高品質 | 無料、デバイス上で実行 |
| Gemini 3.1 Flash TTS | クラウド | 自然 | OpenRouter API キーを追加 |
| ElevenLabs | クラウド | プレミアム | API キーを追加 |
| Cartesia (Sonic 3.5) | クラウド | プレミアム | API キーを追加 |
| Resemble.ai | クラウド | 優秀 (音声クローン) | API キーを追加 |
Kokoro のダウンロードサイズ: Kokoro モデルには2つのバリアントがあり、プラットフォームによってダウンロードされるものが異なります。macOS および iOS では、より小さい INT8 量子化モデル(約88 MB)がロードされます。一方、拡張機能/ブラウザでは、より大きなフル精度の WebGPU ビルド(約330 MB)が使用されます。ダウンロードは初回のみです。
プラットフォームに関する注意点:
- iOS ネイティブ Kokoro (v0.9.720+): WebView ではなく OnnxRuntime を介して iOS ホストプロセスで実行されるため、iPhone 13/14 でのクラッシュが修正されています。
- macOS Kokoro: デスクトップヘルパープロセスを通じて、文章ごとにストリーミング再生されます(再生ボタンを押してから約1秒以内)。
- Gemini TTS (v0.9.723+): OpenRouter 経由 — 文章ごとに再生されるようになったため、回答全体の合成を待つことなく、最初の文章の後に音声が開始されます。
- Cartesia (v0.9.723+): 1つの API キーで Sonic 3.5 (出力) と Ink (入力) の両方を利用できます。デフォルトの音声は設定されていないため、有効にする前に「Settings > Voice」で音声を選択してください。
再生速度: 速度スライダー (0.5×–2.0×) は、ElevenLabs (0.7–1.2× に制限) および Cartesia (0.6–1.5× に制限) のプロバイダーによって適用されます。Browser Voices と Kokoro はローカルで加速処理を行います。Resemble.ai と Gemini には速度制御がなく、常に標準速度で再生されます。
有効化の手順:
- Settings > Voice に移動します
- テキスト読み上げオプションを選択します
- AIに自動で読み上げさせたい場合は "Auto-read responses" をオンにします
- お好みに応じて再生速度を調整します
再生に失敗する場合: 音声エラーはサイレントに失敗するのではなく、トースト通知として表示されるようになりました。API キーの不足や無効、または選択したモデルと互換性のない音声(Resemble.ai や Cartesia でよく見られます)など、修正すべき内容が正確に通知されます。
ローカル vs クラウド: Browser Voices と Kokoro は、デバイス外にデータを送信することはありません。Gemini、ElevenLabs、Cartesia、および Resemble.ai は、音声を生成するために(お客様の API キーを使用して)テキストを各サーバーに送信します。詳細は Privacy & Data を参照してください。
音声コスト (TTS + STT) は、ワンショットパスと同様に、会話の voice_cost として集計されます。
音声入力 (文字起こし)
タイピングの代わりにメッセージを口述できます。コンポーザーのマイクアイコンをクリックして録音を開始してください。Caiioo が発言を文字に起こし、メッセージフィールドに入力します。
文字起こしの方法を選択してください:
| オプション | タイプ | プライバシー | セットアップ |
|---|---|---|---|
| Whisper (ブラウザ) | ローカル | 完全プライベート | 無料、デバイス上で実行 |
| WhisperKit (iOS) | ローカル | 完全プライベート | 無料、デバイス上 |
| whisper.cpp & Moonshine (Android) | ローカル | 完全プライベート | 無料、デバイス上 |
| ブラウザ音声入力 | ローカル | プライベート | 無料、内蔵機能 |
| ElevenLabs Scribe | クラウド | 高精度(英語以外に最適) | ElevenLabs API キーが必要 |
| Cartesia Ink | クラウド | 高精度、低遅延 | Cartesia API キーが必要 |
ローカルオプション(Whisper、WhisperKit、whisper.cpp、Moonshine、ブラウザ音声入力)は、音声をローカルに保持し、サーバーに送信しません。ElevenLabs と Cartesia は、文字起こしのために音声をサーバーに送信しますが(お客様の API キーを使用)、特に英語以外の言語で高い精度を提供します。
使い方:
- コンポーザーのマイクアイコンをクリックします
- メッセージを話します
- 終わったら停止します
- 文字起こしされたテキストがメッセージフィールドに表示されます
- 必要に応じて編集し、送信します
初回セットアップ: デバイス上の音声モデルを初めて使用するときは、ダウンロードと準備が必要です。コンポーザーに進行状況(「音声モデルをダウンロード中… N%」、「準備中」/「読み込み中」)が表示されます。最初のマイクタップ時に少し時間がかかることがありますが、フリーズではありません。
システム全体の音声入力 (macOS)
macOS の Pro 購読者は、PrivateVoice をインストールすることもできます。これは、Caiioo だけでなく、あらゆるアプリケーションで口述入力を行うためのグローバルなプッシュ・トゥ・トーク・ホットキーを追加する別のコンパニオンアプリです。詳細はデスクトップのダウンロードページを参照してください。
関連項目
- プライバシーとデータ — 音声データの取り扱いについて
- プラットフォームとセットアップ — デスクトップアプリと PrivateVoice の利用可能性
- 設定 > 音声 — 環境に合わせた音声オプションの設定
This guide is maintained by the Caiioo team using Slate, our built-in editor.