Це машинний переклад оригінального документа англійською мовою. У разі будь-яких розбіжностей між цим перекладом та оригінальною англійською версією, пріоритет має версія англійською мовою. Читати оригінал англійською мовою


Голос: Говоріть та слухайте

Хочете, щоб ШІ читав відповіді вголос? Або диктувати повідомлення замість друку? Caiioo пропонує голосове введення та виведення — все налаштовується, деякі функції працюють локально на вашому пристрої.

Налаштування голосу з опціями введення та виведення, перемикачем авточитання та швидкістю відтворення

Голосовий вивід (Text-to-Speech)

Дозвольте AI зачитувати свої відповіді вголос. Оберіть один із варіантів:

Опція Тип Якість Налаштування
Голоси браузера Локально Базова Безкоштовно, без налаштувань
Kokoro Локально Висока Безкоштовно, працює на вашому пристрої
Gemini 3.1 Flash TTS Хмара Природна Додайте OpenRouter API key
ElevenLabs Хмара Преміум Додайте свій API key
Cartesia (Sonic 3.5) Хмара Преміум Додайте свій API key
Resemble.ai Хмара Відмінна (клонування голосу) Додайте свій API key

Розмір завантаження Kokoro: Модель Kokoro постачається у двох варіантах, і те, який саме буде завантажено, залежить від вашої платформи. macOS та iOS завантажують меншу INT8-квантовану модель (~88 МБ), тоді як розширення/браузер використовує більшу повноточну збірку WebGPU (~330 МБ). Це одноразове завантаження.

Примітки щодо платформ:

  • iOS native Kokoro (v0.9.720+): Працює в хост-процесі iOS через OnnxRuntime замість WebView, що виправляє збої на iPhone 13/14.
  • macOS Kokoro: Стрімить речення за реченням (протягом ~1с після натискання кнопки відтворення) через допоміжний процес десктопної програми.
  • Gemini TTS (v0.9.723+): Через OpenRouter — тепер відтворює речення за реченням, тому аудіо починається після першого речення, не чекаючи синтезу всієї відповіді.
  • Cartesia (v0.9.723+): Один API key забезпечує роботу як Sonic 3.5 (вивід), так і Ink (ввід). Голос за замовчуванням відсутній — оберіть його в Settings > Voice перед активацією.

Швидкість відтворення: Повзунок швидкості (0.5×–2.0×) застосовується провайдером для ElevenLabs (обмежено 0.7–1.2×) та Cartesia (обмежено 0.6–1.5×). Голоси браузера та Kokoro прискорюються локально; Resemble.ai та Gemini не мають контролю швидкості та завжди відтворюються у звичайному темпі.

Як увімкнути:

  1. Перейдіть у Settings > Voice
  2. Оберіть опцію text-to-speech
  3. Увімкніть "Auto-read responses", якщо хочете, щоб AI читав автоматично
  4. Налаштуйте швидкість відтворення за бажанням

Якщо відтворення не вдалося: Помилки голосу тепер з'являються у вигляді спливаючих повідомлень (toast) замість мовчазної відмови — тож відсутній або недійсний API key, або голос, несумісний з обраною моделлю (часто зустрічається у Resemble.ai та Cartesia), точно підкажуть вам, що саме потрібно виправити.

Локально vs Хмара: Голоси браузера та Kokoro ніколи не надсилають дані за межі вашого пристрою. Gemini, ElevenLabs, Cartesia та Resemble.ai надсилають текст на свої сервери (використовуючи ваші API keys) для генерації аудіо. Дивіться Privacy & Data для деталей.

Витрати на голос (TTS + STT) підсумовуються як voice_cost у розмові, аналогічно до шляху one-shot.

Голосове введення (Speech-to-Text)

Диктуйте свої повідомлення замість того, щоб друкувати. Натисніть іконку мікрофона в полі введення, щоб почати запис. Caiioo транскрибує те, що ви говорите, і вставляє це в поле повідомлення.

Виберіть спосіб транскрипції:

Опція Тип Конфіденційність Налаштування
Whisper (Браузер) Локально Повністю приватно FREE, працює на вашому пристрої
WhisperKit (iOS) Локально Повністю приватно FREE, на пристрої
whisper.cpp & Moonshine (Android) Локально Повністю приватно FREE, на пристрої
Browser Speech Локально Приватно FREE, вбудовано
ElevenLabs Scribe Хмара Точно (чудово для неанглійських мов) Додайте свій API ключ ElevenLabs
Cartesia Ink Хмара Точно, низька затримка Додайте свій API ключ Cartesia

Локальні варіанти (Whisper, WhisperKit, whisper.cpp, Moonshine, Browser Speech) зберігають ваше аудіо локально — нічого не надсилається на сервер. ElevenLabs та Cartesia надсилають аудіо на свої сервери для транскрипції (використовуючи ваш API ключ) і пропонують вищу точність, особливо для мов, відмінних від англійської.

Як користуватися:

  1. Натисніть іконку мікрофона в полі введення
  2. Продиктуйте повідомлення
  3. Зупиніть запис, коли закінчите
  4. Текст з'явиться в полі повідомлення
  5. Відредагуйте за потреби та надішліть

Перше налаштування: Коли ви вперше використовуєте модель мовлення на пристрої, їй потрібно завантажитися та підготуватися. Поле введення показуватиме прогрес ("Завантаження моделі мовлення… N%", потім "Підготовка"/"Завантаження"), тому невелика пауза при першому натисканні на мікрофон є нормальною, це не зависання.

Системне диктування (macOS)

Підписники Pro на macOS також можуть встановити PrivateVoice, окремий допоміжний додаток, який додає глобальну гарячу клавішу для диктування в будь-яку програму — не лише в Caiioo. Подробиці дивіться на сторінці завантаження для десктопа.

Дивіться також


This guide is maintained by the Caiioo team using Slate, our built-in editor.