本文件為英文原版的機器翻譯。若翻譯版本與英文原版之間存在任何歧義,概以英文原版為準。 閱讀英文原版
語音:說話與聆聽
想要 AI 大聲朗讀回應嗎?或者想口述訊息而不是打字?Caiioo 提供語音輸入和輸出功能 — 全部可配置,部分在您的裝置本機執行。

語音輸出 (Text-to-Speech)
讓 AI 朗讀其回覆。可從以下選項中選擇:
| 選項 | 類型 | 品質 | 設定 |
|---|---|---|---|
| 瀏覽器語音 | 本地 | 基礎 | 免費,無需設定 |
| Kokoro | 本地 | 高 | 免費,在您的裝置上執行 |
| Gemini 3.1 Flash TTS | 雲端 | 自然 | 新增 OpenRouter API 金鑰 |
| ElevenLabs | 雲端 | 進階 | 新增您的 API 金鑰 |
| Cartesia (Sonic 3.5) | 雲端 | 進階 | 新增您的 API 金鑰 |
| Resemble.ai | 雲端 | 卓越 (語音複製) | 新增您的 API 金鑰 |
Kokoro 下載大小: Kokoro 模型提供兩種版本,下載哪一種取決於您的平台。macOS 和 iOS 會載入較小的 INT8 量化模型 (~88 MB),而擴充功能/瀏覽器則使用較大的全精度 WebGPU 版本 (~330 MB)。這是一次性的下載。
平台注意事項:
- iOS 原生 Kokoro (v0.9.720+):透過 OnnxRuntime 在 iOS 宿主程序中執行而非 WebView,修復了 iPhone 13/14 的當機問題。
- macOS Kokoro:透過桌面輔助程序進行逐句串流(按下播放後約 1 秒內開始)。
- Gemini TTS (v0.9.723+):透過 OpenRouter — 現在支援逐句播放,因此音訊會在第一句完成後立即開始,無需等待整個回覆合成完畢。
- Cartesia (v0.9.723+):一個 API 金鑰可同時驅動 Sonic 3.5 (輸出) 和 Ink (輸入)。沒有預設語音 — 請在啟用前於「Settings > Voice」中選擇一個。
播放速度: 速度滑桿 (0.5×–2.0×) 由供應商端套用,適用於 ElevenLabs (限制在 0.7–1.2×) 和 Cartesia (限制在 0.6–1.5×)。瀏覽器語音和 Kokoro 在本地端加速;Resemble.ai 和 Gemini 沒有速度控制,始終以正常速率播放。
如何啟用:
- 前往 Settings > Voice
- 選擇一個文字轉語音選項
- 如果您希望 AI 自動朗讀,請開啟「Auto-read responses」
- 根據喜好調整播放速度
如果播放失敗: 語音錯誤現在會以彈出訊息 (toast) 顯示,而不再是靜默失敗 — 因此,遺失或無效的 API 金鑰,或是與所選模型不相容的語音(常見於 Resemble.ai 和 Cartesia),都會明確告知您需要修正的地方。
本地 vs 雲端: 瀏覽器語音和 Kokoro 絕不會將任何資料傳送出您的裝置。Gemini、ElevenLabs、Cartesia 和 Resemble.ai 會將文字傳送到其伺服器(使用您的 API 金鑰)以生成音訊。詳情請參閱 Privacy & Data。
語音費用 (TTS + STT) 會以 voice_cost 彙總在對話中,與單次路徑一致。
語音輸入 (語音轉文字)
用聽寫代替打字。點擊編輯器中的麥克風圖示開始錄音。Caiioo 會轉錄您說的話並將其放入訊息欄位。
選擇轉錄方式:
| 選項 | 類型 | 隱私 | 設定 |
|---|---|---|---|
| Whisper (瀏覽器) | 本地 | 完全隱私 | FREE,在您的裝置上執行 |
| WhisperKit (iOS) | 本地 | 完全隱私 | FREE,裝置端執行 |
| whisper.cpp & Moonshine (Android) | 本地 | 完全隱私 | FREE,裝置端執行 |
| 瀏覽器語音 | 本地 | 隱私 | FREE,內建 |
| ElevenLabs Scribe | 雲端 | 精準 (適合非英語) | 新增您的 ElevenLabs API 金鑰 |
| Cartesia Ink | 雲端 | 精準、低延遲 | 新增您的 Cartesia API 金鑰 |
本地選項(Whisper、WhisperKit、whisper.cpp、Moonshine、瀏覽器語音)將您的音訊保留在本地 — 不會發送到任何伺服器。ElevenLabs 和 Cartesia 會將音訊發送到其伺服器進行轉錄(使用您的 API 金鑰),並提供更高的精確度,特別是針對非英語語言。
使用方法:
- 點擊編輯器中的麥克風圖示
- 說出您的訊息
- 完成後停止
- 逐字稿會出現在訊息欄位中
- 根據需要編輯,然後發送
首次設定: 第一次使用裝置端語音模型時,需要下載並預熱。編輯器會顯示進度(「正在下載語音模型... N%」,然後是「正在準備/載入」),因此第一次點擊麥克風時出現短暫停頓是正常的,並非當機。
系統級聽寫 (macOS)
macOS 上的 Pro 訂閱者還可以安裝 PrivateVoice,這是一個獨立的輔助應用程式,它新增了一個全域按住說話快捷鍵,可將聽寫內容輸入到任何應用程式中 — 不僅限於 Caiioo。詳情請參閱桌面版下載頁面。
另請參閱
This guide is maintained by the Caiioo team using Slate, our built-in editor.