Ito ay isang machine translation ng orihinal na dokumentong Ingles. Sa kaganapan ng anumang salungatan sa pagitan ng pagsasaling ito at ng orihinal na bersyong Ingles, ang bersyong Ingles ang mangingibabaw. Basahin ang orihinal na bersyong Ingles
Voice: Magsalita at Makinig
Gusto mo bang basahin ng AI ang mga tugon nang malakas? O idikta ang mga mensahe sa halip na i-type? Nag-aalok ang Caiioo ng voice input at output—lahat ay maaaring i-configure, ang ilan ay tumatakbo nang lokal sa iyong device.

Voice Output (Text-to-Speech)
Ipabasa nang malakas sa AI ang mga tugon nito. Pumili mula sa:
| Option | Type | Quality | Setup |
|---|---|---|---|
| Browser Voices | Local | Basic | Libre, walang setup |
| Kokoro | Local | High | Libre, tumatakbo sa iyong device |
| Gemini 3.1 Flash TTS | Cloud | Natural | Magdagdag ng OpenRouter API key |
| ElevenLabs | Cloud | Premium | Magdagdag ng iyong API key |
| Cartesia (Sonic 3.5) | Cloud | Premium | Magdagdag ng iyong API key |
| Resemble.ai | Cloud | Excellent (voice cloning) | Magdagdag ng iyong API key |
Laki ng download para sa Kokoro: Ang Kokoro model ay may dalawang variant, at ang mada-download ay depende sa iyong platform. Ang macOS at iOS ay naglo-load ng mas maliit na INT8-quantized model (~88 MB), habang ang extension/browser ay gumagamit ng mas malaking full-precision WebGPU build (~330 MB). Ito ay isang beses lang na download.
Mga tala sa platform:
- iOS native Kokoro (v0.9.720+): Tumatakbo sa iOS host process sa pamamagitan ng OnnxRuntime sa halip na WebView, na nag-aayos sa mga crash sa iPhone 13/14.
- macOS Kokoro: Nag-i-stream nang pangungusap-sa-pangungusap (sa loob ng ~1s pagkapindot ng play) sa pamamagitan ng desktop helper process.
- Gemini TTS (v0.9.723+): Sa pamamagitan ng OpenRouter — nagpe-play na ngayon nang pangungusap-sa-pangungusap, kaya nagsisimula ang audio pagkatapos ng unang pangungusap sa halip na hintayin ang buong tugon na ma-synthesize.
- Cartesia (v0.9.723+): Isang API key ang nagpapagana sa parehong Sonic 3.5 (output) at Ink (input). Walang default na boses—pumili ng isa sa Settings > Voice bago ito i-enable.
Bilis ng playback: Ang speed slider (0.5×–2.0×) ay inilalapat ng provider para sa ElevenLabs (limitado sa 0.7–1.2×) at Cartesia (limitado sa 0.6–1.5×). Ang Browser voices at Kokoro ay bumibilis nang lokal; ang Resemble.ai at Gemini ay walang speed control at laging nagpe-play sa normal na bilis.
Para i-enable ito:
- Pumunta sa Settings > Voice
- Pumili ng text-to-speech option
- I-toggle ang "Auto-read responses" kung gusto mong awtomatikong magbasa ang AI
- I-adjust ang bilis ng playback kung gusto mo
Kung mabigo ang playback: Ang mga error sa boses ay lumalabas na ngayon bilang toast sa halip na tahimik na mabigo—kaya kung may kulang o maling API key, o boses na hindi compatible sa napiling model (karaniwan sa Resemble.ai at Cartesia), sasabihin nito sa iyo nang eksakto kung ano ang dapat ayusin.
Local vs Cloud: Ang Browser voices at Kokoro ay hindi kailanman nagpapadala ng anuman palabas ng iyong device. Ang Gemini, ElevenLabs, Cartesia, at Resemble.ai ay nagpapadala ng text sa kanilang mga server (gamit ang iyong mga API key) upang i-generate ang audio. Tingnan ang Privacy & Data para sa mga detalye.
Ang mga gastos sa boses (TTS + STT) ay pinagsasama bilang voice_cost sa usapan, katulad ng one-shot path.
Voice Input (Speech-to-Text)
Idikta ang iyong mga mensahe sa halip na i-type ang mga ito. I-click ang microphone icon sa composer para magsimulang mag-record. I-tra-transcribe ng Caiioo ang iyong sinasabi at ilalagay ito sa message field.
Pumili kung paano ito mag-tra-transcribe:
| Opsyon | Uri | Privacy | Setup |
|---|---|---|---|
| Whisper (Browser) | Lokal | Ganap na pribado | FREE, tumatakbo sa iyong device |
| WhisperKit (iOS) | Lokal | Ganap na pribado | FREE, on-device |
| whisper.cpp & Moonshine (Android) | Lokal | Ganap na pribado | FREE, on-device |
| Browser Speech | Lokal | Pribado | FREE, built-in |
| ElevenLabs Scribe | Cloud | Tumpak (mahusay para sa hindi Ingles) | Idagdag ang iyong ElevenLabs API key |
| Cartesia Ink | Cloud | Tumpak, low-latency | Idagdag ang iyong Cartesia API key |
Ang mga lokal na opsyon (Whisper, WhisperKit, whisper.cpp, Moonshine, Browser Speech) ay nagpapanatili ng iyong audio sa lokal—walang ipinapadala sa anumang server. Ang ElevenLabs at Cartesia ay nagpapadala ng audio sa kanilang mga server para sa transcription (gamit ang iyong API key) at nag-aalok ng mas mataas na katumpakan, lalo na para sa mga wikang hindi Ingles.
Para gamitin ito:
- I-click ang microphone icon sa composer
- Bigkasin ang iyong mensahe
- Itigil kapag tapos ka na
- Lalabas ang transcript sa message field
- I-edit kung kailangan, pagkatapos ay ipadala
First-time setup: Sa unang pagkakataon na gagamit ka ng on-device speech model, kailangan muna itong i-download at i-warm up. Ipinapakita ng composer ang progreso ("Downloading speech model… N%", pagkatapos ay "Preparing"/"Loading"), kaya asahan ang maikling paghinto sa iyong unang pag-tap sa mic.
System-Wide Dictation (macOS)
Ang mga Pro subscriber sa macOS ay maaari ding mag-install ng PrivateVoice, isang hiwalay na companion app na nagdaragdag ng global press-to-talk hotkey para sa pag-dictate sa anumang application—hindi lang sa Caiioo. Tingnan ang desktop download page para sa mga detalye.
Tingnan Din
- Privacy at Data — Paano pinangangasiwaan ang voice data
- Platform at Pag-set up — Availability ng desktop app at PrivateVoice
- Settings > Voice — I-configure ang mga voice option para sa iyong setup
This guide is maintained by the Caiioo team using Slate, our built-in editor.