Данный документ является машинным переводом оригинальной английской версии. В случае любых расхождений между переводом и оригиналом на английском языке, приоритет имеет английская версия. Читать оригинал на английском языке


Голос: Говорите и слушайте

Хотите, чтобы ИИ читал ответы вслух? Или диктовать сообщения вместо печати? Caiioo предлагает голосовой ввод и вывод — всё настраивается, часть функций работает локально на вашем устройстве.

Настройки голоса с опциями ввода и вывода, переключателем авточтения и скоростью воспроизведения

Голосовой вывод (Text-to-Speech)

Позвольте ИИ озвучивать свои ответы. Выберите один из вариантов:

Опция Тип Качество Настройка
Голоса браузера Локально Базовое Бесплатно, без настройки
Kokoro Локально Высокое Бесплатно, работает на вашем устройстве
Gemini 3.1 Flash TTS Облако Естественное Добавьте API ключ OpenRouter
ElevenLabs Облако Премиум Добавьте свой API ключ
Cartesia (Sonic 3.5) Облако Премиум Добавьте свой API ключ
Resemble.ai Облако Отличное (клонирование голоса) Добавьте свой API ключ

Размер загрузки Kokoro: Модель Kokoro поставляется в двух вариантах, и выбор загружаемой версии зависит от вашей платформы. macOS и iOS загружают меньшую модель с квантованием INT8 (~88 МБ), в то время как расширение/браузер используют более крупную сборку WebGPU с полной точностью (~330 МБ). Это разовая загрузка.

Примечания по платформам:

  • iOS native Kokoro (v0.9.720+): Работает в хост-процессе iOS через OnnxRuntime вместо WebView, что исправляет сбои на iPhone 13/14.
  • macOS Kokoro: Потоковая передача предложений (в течение ~1 сек после нажатия кнопки воспроизведения) через вспомогательный процесс рабочего стола.
  • Gemini TTS (v0.9.723+): Через OpenRouter — теперь воспроизводит предложения по очереди, поэтому аудио начинается после первого предложения, не дожидаясь синтеза всего ответа.
  • Cartesia (v0.9.723+): Один API ключ обеспечивает работу как Sonic 3.5 (вывод), так и Ink (ввод). Голос по умолчанию отсутствует — выберите его в Settings > Voice перед включением.

Скорость воспроизведения: Ползунок скорости (0.5×–2.0×) применяется провайдером для ElevenLabs (ограничено 0.7–1.2×) и Cartesia (ограничено 0.6–1.5×). Голоса браузера и Kokoro ускоряются локально; Resemble.ai и Gemini не имеют контроля скорости и всегда воспроизводятся в нормальном темпе.

Как включить:

  1. Перейдите в Settings > Voice
  2. Выберите вариант синтеза речи
  3. Включите "Auto-read responses", если хотите, чтобы ИИ читал ответы автоматически
  4. Отрегулируйте скорость воспроизведения по своему вкусу

Если воспроизведение не удается: Ошибки голоса теперь отображаются в виде всплывающих уведомлений (toast) вместо тихого сбоя — так что отсутствие или неверный API ключ, или голос, несовместимый с выбранной моделью (часто встречается в Resemble.ai и Cartesia), точно подскажут вам, что нужно исправить.

Локальные решения против облачных: Голоса браузера и Kokoro никогда не отправляют данные за пределы вашего устройства. Gemini, ElevenLabs, Cartesia и Resemble.ai отправляют текст на свои серверы (используя ваши API ключи) для генерации аудио. Подробности см. в разделе Privacy & Data.

Затраты на голос (TTS + STT) суммируются как voice_cost в диалоге, соответствуя пути разового запроса.

Голосовой ввод (Speech-to-Text)

Диктуйте сообщения вместо того, чтобы печатать. Нажмите иконку микрофона в поле ввода, чтобы начать запись. Caiioo расшифрует сказанное и вставит текст в поле сообщения.

Выберите способ транскрибации:

Опция Тип Конфиденциальность Настройка
Whisper (Браузер) Локально Полностью приватно FREE, работает на вашем устройстве
WhisperKit (iOS) Локально Полностью приватно FREE, на устройстве
whisper.cpp & Moonshine (Android) Локально Полностью приватно FREE, на устройстве
Browser Speech Локально Приватно FREE, встроено
ElevenLabs Scribe Облако Точно (отлично для не-английских языков) Добавьте ваш API ключ ElevenLabs
Cartesia Ink Облако Точно, низкая задержка Добавьте ваш API ключ Cartesia

Локальные варианты (Whisper, WhisperKit, whisper.cpp, Moonshine, Browser Speech) обрабатывают аудио на месте — ничего не отправляется на сервер. ElevenLabs и Cartesia отправляют аудио на свои серверы для расшифровки (используя ваш API ключ) и обеспечивают более высокую точность, особенно для русского языка.

Как использовать:

  1. Нажмите иконку микрофона в поле ввода
  2. Произнесите сообщение
  3. Остановите запись, когда закончите
  4. Текст появится в поле ввода
  5. Отредактируйте при необходимости и отправьте

Первичная настройка: При первом использовании локальной модели речи ей необходимо загрузиться. В поле ввода будет отображаться прогресс («Загрузка речевой модели… N%», затем «Подготовка»/«Загрузка»), поэтому небольшая пауза при первом нажатии на микрофон — это нормально.

Системная диктовка (macOS)

Подписчики Pro на macOS также могут установить PrivateVoice — отдельное приложение-компаньон, которое добавляет глобальную горячую клавишу для диктовки в любое приложение, а не только в Caiioo. Подробности на странице загрузки для десктопа.

См. также


This guide is maintained by the Caiioo team using Slate, our built-in editor.