Данный документ является машинным переводом оригинальной английской версии. В случае любых расхождений между переводом и оригиналом на английском языке, приоритет имеет английская версия. Читать оригинал на английском языке
Голос: Говорите и слушайте
Хотите, чтобы ИИ читал ответы вслух? Или диктовать сообщения вместо печати? Caiioo предлагает голосовой ввод и вывод — всё настраивается, часть функций работает локально на вашем устройстве.

Голосовой вывод (Text-to-Speech)
Позвольте ИИ озвучивать свои ответы. Выберите один из вариантов:
| Опция | Тип | Качество | Настройка |
|---|---|---|---|
| Голоса браузера | Локально | Базовое | Бесплатно, без настройки |
| Kokoro | Локально | Высокое | Бесплатно, работает на вашем устройстве |
| Gemini 3.1 Flash TTS | Облако | Естественное | Добавьте API ключ OpenRouter |
| ElevenLabs | Облако | Премиум | Добавьте свой API ключ |
| Cartesia (Sonic 3.5) | Облако | Премиум | Добавьте свой API ключ |
| Resemble.ai | Облако | Отличное (клонирование голоса) | Добавьте свой API ключ |
Размер загрузки Kokoro: Модель Kokoro поставляется в двух вариантах, и выбор загружаемой версии зависит от вашей платформы. macOS и iOS загружают меньшую модель с квантованием INT8 (~88 МБ), в то время как расширение/браузер используют более крупную сборку WebGPU с полной точностью (~330 МБ). Это разовая загрузка.
Примечания по платформам:
- iOS native Kokoro (v0.9.720+): Работает в хост-процессе iOS через OnnxRuntime вместо WebView, что исправляет сбои на iPhone 13/14.
- macOS Kokoro: Потоковая передача предложений (в течение ~1 сек после нажатия кнопки воспроизведения) через вспомогательный процесс рабочего стола.
- Gemini TTS (v0.9.723+): Через OpenRouter — теперь воспроизводит предложения по очереди, поэтому аудио начинается после первого предложения, не дожидаясь синтеза всего ответа.
- Cartesia (v0.9.723+): Один API ключ обеспечивает работу как Sonic 3.5 (вывод), так и Ink (ввод). Голос по умолчанию отсутствует — выберите его в Settings > Voice перед включением.
Скорость воспроизведения: Ползунок скорости (0.5×–2.0×) применяется провайдером для ElevenLabs (ограничено 0.7–1.2×) и Cartesia (ограничено 0.6–1.5×). Голоса браузера и Kokoro ускоряются локально; Resemble.ai и Gemini не имеют контроля скорости и всегда воспроизводятся в нормальном темпе.
Как включить:
- Перейдите в Settings > Voice
- Выберите вариант синтеза речи
- Включите "Auto-read responses", если хотите, чтобы ИИ читал ответы автоматически
- Отрегулируйте скорость воспроизведения по своему вкусу
Если воспроизведение не удается: Ошибки голоса теперь отображаются в виде всплывающих уведомлений (toast) вместо тихого сбоя — так что отсутствие или неверный API ключ, или голос, несовместимый с выбранной моделью (часто встречается в Resemble.ai и Cartesia), точно подскажут вам, что нужно исправить.
Локальные решения против облачных: Голоса браузера и Kokoro никогда не отправляют данные за пределы вашего устройства. Gemini, ElevenLabs, Cartesia и Resemble.ai отправляют текст на свои серверы (используя ваши API ключи) для генерации аудио. Подробности см. в разделе Privacy & Data.
Затраты на голос (TTS + STT) суммируются как voice_cost в диалоге, соответствуя пути разового запроса.
Голосовой ввод (Speech-to-Text)
Диктуйте сообщения вместо того, чтобы печатать. Нажмите иконку микрофона в поле ввода, чтобы начать запись. Caiioo расшифрует сказанное и вставит текст в поле сообщения.
Выберите способ транскрибации:
| Опция | Тип | Конфиденциальность | Настройка |
|---|---|---|---|
| Whisper (Браузер) | Локально | Полностью приватно | FREE, работает на вашем устройстве |
| WhisperKit (iOS) | Локально | Полностью приватно | FREE, на устройстве |
| whisper.cpp & Moonshine (Android) | Локально | Полностью приватно | FREE, на устройстве |
| Browser Speech | Локально | Приватно | FREE, встроено |
| ElevenLabs Scribe | Облако | Точно (отлично для не-английских языков) | Добавьте ваш API ключ ElevenLabs |
| Cartesia Ink | Облако | Точно, низкая задержка | Добавьте ваш API ключ Cartesia |
Локальные варианты (Whisper, WhisperKit, whisper.cpp, Moonshine, Browser Speech) обрабатывают аудио на месте — ничего не отправляется на сервер. ElevenLabs и Cartesia отправляют аудио на свои серверы для расшифровки (используя ваш API ключ) и обеспечивают более высокую точность, особенно для русского языка.
Как использовать:
- Нажмите иконку микрофона в поле ввода
- Произнесите сообщение
- Остановите запись, когда закончите
- Текст появится в поле ввода
- Отредактируйте при необходимости и отправьте
Первичная настройка: При первом использовании локальной модели речи ей необходимо загрузиться. В поле ввода будет отображаться прогресс («Загрузка речевой модели… N%», затем «Подготовка»/«Загрузка»), поэтому небольшая пауза при первом нажатии на микрофон — это нормально.
Системная диктовка (macOS)
Подписчики Pro на macOS также могут установить PrivateVoice — отдельное приложение-компаньон, которое добавляет глобальную горячую клавишу для диктовки в любое приложение, а не только в Caiioo. Подробности на странице загрузки для десктопа.
См. также
- Приватность и данные — Как обрабатываются голосовые данные
- Платформа и настройка — Доступность приложения для ПК и PrivateVoice
- Настройки > Голос — Настройте параметры голоса для вашей конфигурации
This guide is maintained by the Caiioo team using Slate, our built-in editor.