本文件為英文原版的機器翻譯。若翻譯版本與英文原版之間存在任何歧義,概以英文原版為準。 閱讀英文原版


語音:說話與聆聽

想要 AI 大聲朗讀回應嗎?或者想口述訊息而不是打字?Caiioo 提供語音輸入和輸出功能 — 全部可配置,部分在您的裝置本機執行。

語音設定,包含輸入和輸出選項、自動朗讀切換和播放速度

語音輸出 (Text-to-Speech)

讓 AI 朗讀其回覆。可從以下選項中選擇:

選項 類型 品質 設定
瀏覽器語音 本地 基礎 免費,無需設定
Kokoro 本地 免費,在您的裝置上執行
Gemini 3.1 Flash TTS 雲端 自然 新增 OpenRouter API 金鑰
ElevenLabs 雲端 進階 新增您的 API 金鑰
Cartesia (Sonic 3.5) 雲端 進階 新增您的 API 金鑰
Resemble.ai 雲端 卓越 (語音複製) 新增您的 API 金鑰

Kokoro 下載大小: Kokoro 模型提供兩種版本,下載哪一種取決於您的平台。macOS 和 iOS 會載入較小的 INT8 量化模型 (~88 MB),而擴充功能/瀏覽器則使用較大的全精度 WebGPU 版本 (~330 MB)。這是一次性的下載。

平台注意事項:

  • iOS 原生 Kokoro (v0.9.720+):透過 OnnxRuntime 在 iOS 宿主程序中執行而非 WebView,修復了 iPhone 13/14 的當機問題。
  • macOS Kokoro:透過桌面輔助程序進行逐句串流(按下播放後約 1 秒內開始)。
  • Gemini TTS (v0.9.723+):透過 OpenRouter — 現在支援逐句播放,因此音訊會在第一句完成後立即開始,無需等待整個回覆合成完畢。
  • Cartesia (v0.9.723+):一個 API 金鑰可同時驅動 Sonic 3.5 (輸出) 和 Ink (輸入)。沒有預設語音 — 請在啟用前於「Settings > Voice」中選擇一個。

播放速度: 速度滑桿 (0.5×–2.0×) 由供應商端套用,適用於 ElevenLabs (限制在 0.7–1.2×) 和 Cartesia (限制在 0.6–1.5×)。瀏覽器語音和 Kokoro 在本地端加速;Resemble.ai 和 Gemini 沒有速度控制,始終以正常速率播放。

如何啟用:

  1. 前往 Settings > Voice
  2. 選擇一個文字轉語音選項
  3. 如果您希望 AI 自動朗讀,請開啟「Auto-read responses」
  4. 根據喜好調整播放速度

如果播放失敗: 語音錯誤現在會以彈出訊息 (toast) 顯示,而不再是靜默失敗 — 因此,遺失或無效的 API 金鑰,或是與所選模型不相容的語音(常見於 Resemble.ai 和 Cartesia),都會明確告知您需要修正的地方。

本地 vs 雲端: 瀏覽器語音和 Kokoro 絕不會將任何資料傳送出您的裝置。Gemini、ElevenLabs、Cartesia 和 Resemble.ai 會將文字傳送到其伺服器(使用您的 API 金鑰)以生成音訊。詳情請參閱 Privacy & Data

語音費用 (TTS + STT) 會以 voice_cost 彙總在對話中,與單次路徑一致。

語音輸入 (語音轉文字)

用聽寫代替打字。點擊編輯器中的麥克風圖示開始錄音。Caiioo 會轉錄您說的話並將其放入訊息欄位。

選擇轉錄方式:

選項 類型 隱私 設定
Whisper (瀏覽器) 本地 完全隱私 FREE,在您的裝置上執行
WhisperKit (iOS) 本地 完全隱私 FREE,裝置端執行
whisper.cpp & Moonshine (Android) 本地 完全隱私 FREE,裝置端執行
瀏覽器語音 本地 隱私 FREE,內建
ElevenLabs Scribe 雲端 精準 (適合非英語) 新增您的 ElevenLabs API 金鑰
Cartesia Ink 雲端 精準、低延遲 新增您的 Cartesia API 金鑰

本地選項(Whisper、WhisperKit、whisper.cpp、Moonshine、瀏覽器語音)將您的音訊保留在本地 — 不會發送到任何伺服器。ElevenLabs 和 Cartesia 會將音訊發送到其伺服器進行轉錄(使用您的 API 金鑰),並提供更高的精確度,特別是針對非英語語言。

使用方法:

  1. 點擊編輯器中的麥克風圖示
  2. 說出您的訊息
  3. 完成後停止
  4. 逐字稿會出現在訊息欄位中
  5. 根據需要編輯,然後發送

首次設定: 第一次使用裝置端語音模型時,需要下載並預熱。編輯器會顯示進度(「正在下載語音模型... N%」,然後是「正在準備/載入」),因此第一次點擊麥克風時出現短暫停頓是正常的,並非當機。

系統級聽寫 (macOS)

macOS 上的 Pro 訂閱者還可以安裝 PrivateVoice,這是一個獨立的輔助應用程式,它新增了一個全域按住說話快捷鍵,可將聽寫內容輸入到任何應用程式中 — 不僅限於 Caiioo。詳情請參閱桌面版下載頁面。

另請參閱

  • 隱私與資料 —— 語音資料的處理方式
  • 平台與設定 —— 桌面應用程式和 PrivateVoice 的可用性
  • 設定 > 語音 —— 為您的配置設定語音選項

This guide is maintained by the Caiioo team using Slate, our built-in editor.