この文書は元の英語版を機械翻訳したものです。翻訳版と英語版の間に相違がある場合は、英語版が優先されるものとします。 英語版の原文を読む


音声:話す・聴く

AIに応答を読み上げさせたいですか?あるいはタイピングの代わりにメッセージを口述したいですか?Caiiooは音声の入力と出力を提供します。すべて設定可能で、一部はデバイス上でローカルに動作します。

入力・出力オプション、自動読み上げトグル、再生速度を備えた音声設定

音声出力 (Text-to-Speech)

AIに回答を読み上げさせることができます。以下のオプションから選択してください:

オプション タイプ 品質 セットアップ
Browser Voices ローカル 標準 無料、設定不要
Kokoro ローカル 高品質 無料、デバイス上で実行
Gemini 3.1 Flash TTS クラウド 自然 OpenRouter API キーを追加
ElevenLabs クラウド プレミアム API キーを追加
Cartesia (Sonic 3.5) クラウド プレミアム API キーを追加
Resemble.ai クラウド 優秀 (音声クローン) API キーを追加

Kokoro のダウンロードサイズ: Kokoro モデルには2つのバリアントがあり、プラットフォームによってダウンロードされるものが異なります。macOS および iOS では、より小さい INT8 量子化モデル(約88 MB)がロードされます。一方、拡張機能/ブラウザでは、より大きなフル精度の WebGPU ビルド(約330 MB)が使用されます。ダウンロードは初回のみです。

プラットフォームに関する注意点:

  • iOS ネイティブ Kokoro (v0.9.720+): WebView ではなく OnnxRuntime を介して iOS ホストプロセスで実行されるため、iPhone 13/14 でのクラッシュが修正されています。
  • macOS Kokoro: デスクトップヘルパープロセスを通じて、文章ごとにストリーミング再生されます(再生ボタンを押してから約1秒以内)。
  • Gemini TTS (v0.9.723+): OpenRouter 経由 — 文章ごとに再生されるようになったため、回答全体の合成を待つことなく、最初の文章の後に音声が開始されます。
  • Cartesia (v0.9.723+): 1つの API キーで Sonic 3.5 (出力) と Ink (入力) の両方を利用できます。デフォルトの音声は設定されていないため、有効にする前に「Settings > Voice」で音声を選択してください。

再生速度: 速度スライダー (0.5×–2.0×) は、ElevenLabs (0.7–1.2× に制限) および Cartesia (0.6–1.5× に制限) のプロバイダーによって適用されます。Browser Voices と Kokoro はローカルで加速処理を行います。Resemble.ai と Gemini には速度制御がなく、常に標準速度で再生されます。

有効化の手順:

  1. Settings > Voice に移動します
  2. テキスト読み上げオプションを選択します
  3. AIに自動で読み上げさせたい場合は "Auto-read responses" をオンにします
  4. お好みに応じて再生速度を調整します

再生に失敗する場合: 音声エラーはサイレントに失敗するのではなく、トースト通知として表示されるようになりました。API キーの不足や無効、または選択したモデルと互換性のない音声(Resemble.ai や Cartesia でよく見られます)など、修正すべき内容が正確に通知されます。

ローカル vs クラウド: Browser Voices と Kokoro は、デバイス外にデータを送信することはありません。Gemini、ElevenLabs、Cartesia、および Resemble.ai は、音声を生成するために(お客様の API キーを使用して)テキストを各サーバーに送信します。詳細は Privacy & Data を参照してください。

音声コスト (TTS + STT) は、ワンショットパスと同様に、会話の voice_cost として集計されます。

音声入力 (文字起こし)

タイピングの代わりにメッセージを口述できます。コンポーザーのマイクアイコンをクリックして録音を開始してください。Caiioo が発言を文字に起こし、メッセージフィールドに入力します。

文字起こしの方法を選択してください:

オプション タイプ プライバシー セットアップ
Whisper (ブラウザ) ローカル 完全プライベート 無料、デバイス上で実行
WhisperKit (iOS) ローカル 完全プライベート 無料、デバイス上
whisper.cpp & Moonshine (Android) ローカル 完全プライベート 無料、デバイス上
ブラウザ音声入力 ローカル プライベート 無料、内蔵機能
ElevenLabs Scribe クラウド 高精度(英語以外に最適) ElevenLabs API キーが必要
Cartesia Ink クラウド 高精度、低遅延 Cartesia API キーが必要

ローカルオプション(Whisper、WhisperKit、whisper.cpp、Moonshine、ブラウザ音声入力)は、音声をローカルに保持し、サーバーに送信しません。ElevenLabs と Cartesia は、文字起こしのために音声をサーバーに送信しますが(お客様の API キーを使用)、特に英語以外の言語で高い精度を提供します。

使い方:

  1. コンポーザーのマイクアイコンをクリックします
  2. メッセージを話します
  3. 終わったら停止します
  4. 文字起こしされたテキストがメッセージフィールドに表示されます
  5. 必要に応じて編集し、送信します

初回セットアップ: デバイス上の音声モデルを初めて使用するときは、ダウンロードと準備が必要です。コンポーザーに進行状況(「音声モデルをダウンロード中… N%」、「準備中」/「読み込み中」)が表示されます。最初のマイクタップ時に少し時間がかかることがありますが、フリーズではありません。

システム全体の音声入力 (macOS)

macOS の Pro 購読者は、PrivateVoice をインストールすることもできます。これは、Caiioo だけでなく、あらゆるアプリケーションで口述入力を行うためのグローバルなプッシュ・トゥ・トーク・ホットキーを追加する別のコンパニオンアプリです。詳細はデスクトップのダウンロードページを参照してください。

関連項目


This guide is maintained by the Caiioo team using Slate, our built-in editor.