Ito ay isang machine translation ng orihinal na dokumentong Ingles. Sa kaganapan ng anumang salungatan sa pagitan ng pagsasaling ito at ng orihinal na bersyong Ingles, ang bersyong Ingles ang mangingibabaw. Basahin ang orihinal na bersyong Ingles


Voice: Magsalita at Makinig

Gusto mo bang basahin ng AI ang mga tugon nang malakas? O idikta ang mga mensahe sa halip na i-type? Nag-aalok ang Caiioo ng voice input at output—lahat ay maaaring i-configure, ang ilan ay tumatakbo nang lokal sa iyong device.

Voice settings na may mga input at output option, auto-read toggle, at playback speed

Voice Output (Text-to-Speech)

Ipabasa nang malakas sa AI ang mga tugon nito. Pumili mula sa:

Option Type Quality Setup
Browser Voices Local Basic Libre, walang setup
Kokoro Local High Libre, tumatakbo sa iyong device
Gemini 3.1 Flash TTS Cloud Natural Magdagdag ng OpenRouter API key
ElevenLabs Cloud Premium Magdagdag ng iyong API key
Cartesia (Sonic 3.5) Cloud Premium Magdagdag ng iyong API key
Resemble.ai Cloud Excellent (voice cloning) Magdagdag ng iyong API key

Laki ng download para sa Kokoro: Ang Kokoro model ay may dalawang variant, at ang mada-download ay depende sa iyong platform. Ang macOS at iOS ay naglo-load ng mas maliit na INT8-quantized model (~88 MB), habang ang extension/browser ay gumagamit ng mas malaking full-precision WebGPU build (~330 MB). Ito ay isang beses lang na download.

Mga tala sa platform:

  • iOS native Kokoro (v0.9.720+): Tumatakbo sa iOS host process sa pamamagitan ng OnnxRuntime sa halip na WebView, na nag-aayos sa mga crash sa iPhone 13/14.
  • macOS Kokoro: Nag-i-stream nang pangungusap-sa-pangungusap (sa loob ng ~1s pagkapindot ng play) sa pamamagitan ng desktop helper process.
  • Gemini TTS (v0.9.723+): Sa pamamagitan ng OpenRouter — nagpe-play na ngayon nang pangungusap-sa-pangungusap, kaya nagsisimula ang audio pagkatapos ng unang pangungusap sa halip na hintayin ang buong tugon na ma-synthesize.
  • Cartesia (v0.9.723+): Isang API key ang nagpapagana sa parehong Sonic 3.5 (output) at Ink (input). Walang default na boses—pumili ng isa sa Settings > Voice bago ito i-enable.

Bilis ng playback: Ang speed slider (0.5×–2.0×) ay inilalapat ng provider para sa ElevenLabs (limitado sa 0.7–1.2×) at Cartesia (limitado sa 0.6–1.5×). Ang Browser voices at Kokoro ay bumibilis nang lokal; ang Resemble.ai at Gemini ay walang speed control at laging nagpe-play sa normal na bilis.

Para i-enable ito:

  1. Pumunta sa Settings > Voice
  2. Pumili ng text-to-speech option
  3. I-toggle ang "Auto-read responses" kung gusto mong awtomatikong magbasa ang AI
  4. I-adjust ang bilis ng playback kung gusto mo

Kung mabigo ang playback: Ang mga error sa boses ay lumalabas na ngayon bilang toast sa halip na tahimik na mabigo—kaya kung may kulang o maling API key, o boses na hindi compatible sa napiling model (karaniwan sa Resemble.ai at Cartesia), sasabihin nito sa iyo nang eksakto kung ano ang dapat ayusin.

Local vs Cloud: Ang Browser voices at Kokoro ay hindi kailanman nagpapadala ng anuman palabas ng iyong device. Ang Gemini, ElevenLabs, Cartesia, at Resemble.ai ay nagpapadala ng text sa kanilang mga server (gamit ang iyong mga API key) upang i-generate ang audio. Tingnan ang Privacy & Data para sa mga detalye.

Ang mga gastos sa boses (TTS + STT) ay pinagsasama bilang voice_cost sa usapan, katulad ng one-shot path.

Voice Input (Speech-to-Text)

Idikta ang iyong mga mensahe sa halip na i-type ang mga ito. I-click ang microphone icon sa composer para magsimulang mag-record. I-tra-transcribe ng Caiioo ang iyong sinasabi at ilalagay ito sa message field.

Pumili kung paano ito mag-tra-transcribe:

Opsyon Uri Privacy Setup
Whisper (Browser) Lokal Ganap na pribado FREE, tumatakbo sa iyong device
WhisperKit (iOS) Lokal Ganap na pribado FREE, on-device
whisper.cpp & Moonshine (Android) Lokal Ganap na pribado FREE, on-device
Browser Speech Lokal Pribado FREE, built-in
ElevenLabs Scribe Cloud Tumpak (mahusay para sa hindi Ingles) Idagdag ang iyong ElevenLabs API key
Cartesia Ink Cloud Tumpak, low-latency Idagdag ang iyong Cartesia API key

Ang mga lokal na opsyon (Whisper, WhisperKit, whisper.cpp, Moonshine, Browser Speech) ay nagpapanatili ng iyong audio sa lokal—walang ipinapadala sa anumang server. Ang ElevenLabs at Cartesia ay nagpapadala ng audio sa kanilang mga server para sa transcription (gamit ang iyong API key) at nag-aalok ng mas mataas na katumpakan, lalo na para sa mga wikang hindi Ingles.

Para gamitin ito:

  1. I-click ang microphone icon sa composer
  2. Bigkasin ang iyong mensahe
  3. Itigil kapag tapos ka na
  4. Lalabas ang transcript sa message field
  5. I-edit kung kailangan, pagkatapos ay ipadala

First-time setup: Sa unang pagkakataon na gagamit ka ng on-device speech model, kailangan muna itong i-download at i-warm up. Ipinapakita ng composer ang progreso ("Downloading speech model… N%", pagkatapos ay "Preparing"/"Loading"), kaya asahan ang maikling paghinto sa iyong unang pag-tap sa mic.

System-Wide Dictation (macOS)

Ang mga Pro subscriber sa macOS ay maaari ding mag-install ng PrivateVoice, isang hiwalay na companion app na nagdaragdag ng global press-to-talk hotkey para sa pag-dictate sa anumang application—hindi lang sa Caiioo. Tingnan ang desktop download page para sa mga detalye.

Tingnan Din

  • Privacy at Data — Paano pinangangasiwaan ang voice data
  • Platform at Pag-set up — Availability ng desktop app at PrivateVoice
  • Settings > Voice — I-configure ang mga voice option para sa iyong setup

This guide is maintained by the Caiioo team using Slate, our built-in editor.