本文档由英文原版机器翻译而成。如果翻译版本与英文原版之间存在任何冲突,请以英文原版为准。 阅读英文原版


语音:说与听

想让 AI 大声朗读响应吗?或者想口述消息而不是打字?Caiioo 提供语音输入和输出功能 —— 全部可配置,部分在您的设备本地运行。

语音设置包含输入和输出选项、自动朗读开关和播放速度

语音输出 (Text-to-Speech)

让 AI 大声朗读其回复。可供选择的选项包括:

选项 类型 质量 设置
浏览器语音 本地 基础 免费,无需设置
Kokoro 本地 免费,在您的设备上运行
Gemini 3.1 Flash TTS 云端 自然 添加 OpenRouter API 密钥
ElevenLabs 云端 优质 添加您的 API 密钥
Cartesia (Sonic 3.5) 云端 优质 添加您的 API 密钥
Resemble.ai 云端 卓越(语音克隆) 添加您的 API 密钥

Kokoro 下载大小: Kokoro 模型提供两种变体,下载哪一种取决于您的平台。macOS 和 iOS 加载较小的 INT8 量化模型(约 88 MB),而扩展程序/浏览器则使用较大的全精度 WebGPU 版本(约 330 MB)。这是一次性下载。

平台说明:

  • iOS 原生 Kokoro (v0.9.720+):通过 OnnxRuntime 在 iOS 宿主进程中运行,而非 WebView,修复了 iPhone 13/14 的崩溃问题。
  • macOS Kokoro:通过桌面辅助进程实现逐句流式传输(点击播放后约 1 秒内开始)。
  • Gemini TTS (v0.9.723+):通过 OpenRouter —— 现在支持逐句播放,因此音频在第一句完成后即开始播放,无需等待整个回复合成完毕。
  • Cartesia (v0.9.723+):一个 API 密钥可同时驱动 Sonic 3.5(输出)和 Ink(输入)。没有默认语音——请在启用前前往“设置 > 语音”选择一个语音。

播放速度: 速度滑块 (0.5×–2.0×) 由提供商应用,适用于 ElevenLabs(限制在 0.7–1.2×)和 Cartesia(限制在 0.6–1.5×)。浏览器语音和 Kokoro 在本地加速;Resemble.ai 和 Gemini 没有速度控制,始终以正常速率播放。

如何启用:

  1. 前往 设置 > 语音
  2. 选择一个文本转语音选项
  3. 如果您希望 AI 自动朗读,请开启“自动朗读回复”
  4. 根据喜好调节播放速度

如果播放失败: 语音错误现在会以弹窗提示(toast)形式出现,而不再是静默失败——因此,如果 API 密钥缺失或无效,或者语音与所选模型不兼容(在 Resemble.ai 和 Cartesia 中常见),系统会准确告知您需要修复的地方。

本地 vs 云端: 浏览器语音和 Kokoro 绝不会将任何数据发送出您的设备。Gemini、ElevenLabs、Cartesia 和 Resemble.ai 会将文本发送到其服务器(使用您的 API 密钥)以生成音频。详情请参阅 Privacy & Data

语音费用 (TTS + STT) 会作为 voice_cost 汇总在对话中,与 one-shot 路径一致。

语音输入 (语音转文字)

通过口述代替打字。点击输入框中的麦克风图标开始录音。Caiioo 会转录您说的话并将其放入消息字段中。

选择转录方式:

选项 类型 隐私 设置
Whisper (浏览器) 本地 完全私密 FREE,在您的设备上运行
WhisperKit (iOS) 本地 完全私密 FREE,设备端运行
whisper.cpp & Moonshine (Android) 本地 完全私密 FREE,设备端运行
浏览器语音 本地 私密 FREE,内置
ElevenLabs Scribe 云端 准确(适合非英语) 添加您的 ElevenLabs API 密钥
Cartesia Ink 云端 准确、低延迟 添加您的 Cartesia API 密钥

本地选项(Whisper, WhisperKit, whisper.cpp, Moonshine, 浏览器语音)将音频保留在本地 —— 不会发送到任何服务器。ElevenLabs 和 Cartesia 会将音频发送到其服务器进行转录(使用您的 API 密钥),并提供更高的准确度,尤其是对于非英语语言。

使用方法:

  1. 点击输入框中的麦克风图标
  2. 说出您的消息
  3. 完成后停止
  4. 转录文本将出现在消息字段中
  5. 根据需要编辑,然后发送

首次设置: 第一次使用设备端语音模型时,需要下载并预热。输入框会显示进度(“正在下载语音模型… N%”,然后是“正在准备”/“正在加载”),因此第一次点击麦克风时出现短暂暂停是正常的,并非卡死。

全局听写 (macOS)

macOS 上的 Pro 订阅者还可以安装 PrivateVoice,这是一个独立的配套应用,它添加了一个全局按住通话热键,可将语音听写到任何应用程序中 —— 不仅仅是 Caiioo。详情请参阅桌面端下载页面。

另请参阅

  • 隐私与数据 —— 语音数据如何处理
  • 平台与设置 —— 桌面应用和 PrivateVoice 的可用性
  • 设置 > 语音 —— 为您的环境配置语音选项

This guide is maintained by the Caiioo team using Slate, our built-in editor.