本文档由英文原版机器翻译而成。如果翻译版本与英文原版之间存在任何冲突,请以英文原版为准。 阅读英文原版
语音:说与听
想让 AI 大声朗读响应吗?或者想口述消息而不是打字?Caiioo 提供语音输入和输出功能 —— 全部可配置,部分在您的设备本地运行。

语音输出 (Text-to-Speech)
让 AI 大声朗读其回复。可供选择的选项包括:
| 选项 | 类型 | 质量 | 设置 |
|---|---|---|---|
| 浏览器语音 | 本地 | 基础 | 免费,无需设置 |
| Kokoro | 本地 | 高 | 免费,在您的设备上运行 |
| Gemini 3.1 Flash TTS | 云端 | 自然 | 添加 OpenRouter API 密钥 |
| ElevenLabs | 云端 | 优质 | 添加您的 API 密钥 |
| Cartesia (Sonic 3.5) | 云端 | 优质 | 添加您的 API 密钥 |
| Resemble.ai | 云端 | 卓越(语音克隆) | 添加您的 API 密钥 |
Kokoro 下载大小: Kokoro 模型提供两种变体,下载哪一种取决于您的平台。macOS 和 iOS 加载较小的 INT8 量化模型(约 88 MB),而扩展程序/浏览器则使用较大的全精度 WebGPU 版本(约 330 MB)。这是一次性下载。
平台说明:
- iOS 原生 Kokoro (v0.9.720+):通过 OnnxRuntime 在 iOS 宿主进程中运行,而非 WebView,修复了 iPhone 13/14 的崩溃问题。
- macOS Kokoro:通过桌面辅助进程实现逐句流式传输(点击播放后约 1 秒内开始)。
- Gemini TTS (v0.9.723+):通过 OpenRouter —— 现在支持逐句播放,因此音频在第一句完成后即开始播放,无需等待整个回复合成完毕。
- Cartesia (v0.9.723+):一个 API 密钥可同时驱动 Sonic 3.5(输出)和 Ink(输入)。没有默认语音——请在启用前前往“设置 > 语音”选择一个语音。
播放速度: 速度滑块 (0.5×–2.0×) 由提供商应用,适用于 ElevenLabs(限制在 0.7–1.2×)和 Cartesia(限制在 0.6–1.5×)。浏览器语音和 Kokoro 在本地加速;Resemble.ai 和 Gemini 没有速度控制,始终以正常速率播放。
如何启用:
- 前往 设置 > 语音
- 选择一个文本转语音选项
- 如果您希望 AI 自动朗读,请开启“自动朗读回复”
- 根据喜好调节播放速度
如果播放失败: 语音错误现在会以弹窗提示(toast)形式出现,而不再是静默失败——因此,如果 API 密钥缺失或无效,或者语音与所选模型不兼容(在 Resemble.ai 和 Cartesia 中常见),系统会准确告知您需要修复的地方。
本地 vs 云端: 浏览器语音和 Kokoro 绝不会将任何数据发送出您的设备。Gemini、ElevenLabs、Cartesia 和 Resemble.ai 会将文本发送到其服务器(使用您的 API 密钥)以生成音频。详情请参阅 Privacy & Data。
语音费用 (TTS + STT) 会作为 voice_cost 汇总在对话中,与 one-shot 路径一致。
语音输入 (语音转文字)
通过口述代替打字。点击输入框中的麦克风图标开始录音。Caiioo 会转录您说的话并将其放入消息字段中。
选择转录方式:
| 选项 | 类型 | 隐私 | 设置 |
|---|---|---|---|
| Whisper (浏览器) | 本地 | 完全私密 | FREE,在您的设备上运行 |
| WhisperKit (iOS) | 本地 | 完全私密 | FREE,设备端运行 |
| whisper.cpp & Moonshine (Android) | 本地 | 完全私密 | FREE,设备端运行 |
| 浏览器语音 | 本地 | 私密 | FREE,内置 |
| ElevenLabs Scribe | 云端 | 准确(适合非英语) | 添加您的 ElevenLabs API 密钥 |
| Cartesia Ink | 云端 | 准确、低延迟 | 添加您的 Cartesia API 密钥 |
本地选项(Whisper, WhisperKit, whisper.cpp, Moonshine, 浏览器语音)将音频保留在本地 —— 不会发送到任何服务器。ElevenLabs 和 Cartesia 会将音频发送到其服务器进行转录(使用您的 API 密钥),并提供更高的准确度,尤其是对于非英语语言。
使用方法:
- 点击输入框中的麦克风图标
- 说出您的消息
- 完成后停止
- 转录文本将出现在消息字段中
- 根据需要编辑,然后发送
首次设置: 第一次使用设备端语音模型时,需要下载并预热。输入框会显示进度(“正在下载语音模型… N%”,然后是“正在准备”/“正在加载”),因此第一次点击麦克风时出现短暂暂停是正常的,并非卡死。
全局听写 (macOS)
macOS 上的 Pro 订阅者还可以安装 PrivateVoice,这是一个独立的配套应用,它添加了一个全局按住通话热键,可将语音听写到任何应用程序中 —— 不仅仅是 Caiioo。详情请参阅桌面端下载页面。
另请参阅
This guide is maintained by the Caiioo team using Slate, our built-in editor.