Ito ay isang machine translation ng orihinal na dokumentong Ingles. Sa kaganapan ng anumang salungatan sa pagitan ng pagsasaling ito at ng orihinal na bersyong Ingles, ang bersyong Ingles ang mangingibabaw. Basahin ang orihinal na bersyong Ingles

Voice: Magsalita at Makinig

Gusto mo bang basahin ng AI ang mga tugon nang malakas? O idikta ang mga mensahe sa halip na i-type? Nag-aalok ang Caiioo ng voice input at output—lahat ay maaaring i-configure, ang ilan ay tumatakbo nang lokal sa iyong device.

Voice settings na may mga input at output option, auto-read toggle, at playback speed

Voice Output (Text-to-Speech)

Ipabasa nang malakas sa AI ang mga tugon nito. Pumili mula sa:

Option	Type	Quality	Setup
Browser Voices	Local	Basic	Libre, walang setup
Kokoro	Local	High	Libre, tumatakbo sa iyong device
Gemini 3.1 Flash TTS	Cloud	Natural	Magdagdag ng OpenRouter API key
ElevenLabs	Cloud	Premium	Magdagdag ng iyong API key
Cartesia (Sonic 3.5)	Cloud	Premium	Magdagdag ng iyong API key
Resemble.ai	Cloud	Excellent (voice cloning)	Magdagdag ng iyong API key

Laki ng download para sa Kokoro: Ang Kokoro model ay may dalawang variant, at ang mada-download ay depende sa iyong platform. Ang macOS at iOS ay naglo-load ng mas maliit na INT8-quantized model (~88 MB), habang ang extension/browser ay gumagamit ng mas malaking full-precision WebGPU build (~330 MB). Ito ay isang beses lang na download.

Mga tala sa platform:

iOS native Kokoro (v0.9.720+): Tumatakbo sa iOS host process sa pamamagitan ng OnnxRuntime sa halip na WebView, na nag-aayos sa mga crash sa iPhone 13/14.
macOS Kokoro: Nag-i-stream nang pangungusap-sa-pangungusap (sa loob ng ~1s pagkapindot ng play) sa pamamagitan ng desktop helper process.
Gemini TTS (v0.9.723+): Sa pamamagitan ng OpenRouter — nagpe-play na ngayon nang pangungusap-sa-pangungusap, kaya nagsisimula ang audio pagkatapos ng unang pangungusap sa halip na hintayin ang buong tugon na ma-synthesize.
Cartesia (v0.9.723+): Isang API key ang nagpapagana sa parehong Sonic 3.5 (output) at Ink (input). Walang default na boses—pumili ng isa sa Settings > Voice bago ito i-enable.

Bilis ng playback: Ang speed slider (0.5×–2.0×) ay inilalapat ng provider para sa ElevenLabs (limitado sa 0.7–1.2×) at Cartesia (limitado sa 0.6–1.5×). Ang Browser voices at Kokoro ay bumibilis nang lokal; ang Resemble.ai at Gemini ay walang speed control at laging nagpe-play sa normal na bilis.

Para i-enable ito:

Pumunta sa Settings > Voice
Pumili ng text-to-speech option
I-toggle ang "Auto-read responses" kung gusto mong awtomatikong magbasa ang AI
I-adjust ang bilis ng playback kung gusto mo

Kung mabigo ang playback: Ang mga error sa boses ay lumalabas na ngayon bilang toast sa halip na tahimik na mabigo—kaya kung may kulang o maling API key, o boses na hindi compatible sa napiling model (karaniwan sa Resemble.ai at Cartesia), sasabihin nito sa iyo nang eksakto kung ano ang dapat ayusin.

Local vs Cloud: Ang Browser voices at Kokoro ay hindi kailanman nagpapadala ng anuman palabas ng iyong device. Ang Gemini, ElevenLabs, Cartesia, at Resemble.ai ay nagpapadala ng text sa kanilang mga server (gamit ang iyong mga API key) upang i-generate ang audio. Tingnan ang Privacy & Data para sa mga detalye.

Ang mga gastos sa boses (TTS + STT) ay pinagsasama bilang voice_cost sa usapan, katulad ng one-shot path.

Voice Input (Speech-to-Text)

Idikta ang iyong mga mensahe sa halip na i-type ang mga ito. I-click ang microphone icon sa composer para magsimulang mag-record. I-tra-transcribe ng Caiioo ang iyong sinasabi at ilalagay ito sa message field.

Pumili kung paano ito mag-tra-transcribe:

Opsyon	Uri	Privacy	Setup
Whisper (Browser)	Lokal	Ganap na pribado	FREE, tumatakbo sa iyong device
WhisperKit (iOS)	Lokal	Ganap na pribado	FREE, on-device
whisper.cpp & Moonshine (Android)	Lokal	Ganap na pribado	FREE, on-device
Browser Speech	Lokal	Pribado	FREE, built-in
ElevenLabs Scribe	Cloud	Tumpak (mahusay para sa hindi Ingles)	Idagdag ang iyong ElevenLabs API key
Cartesia Ink	Cloud	Tumpak, low-latency	Idagdag ang iyong Cartesia API key

Ang mga lokal na opsyon (Whisper, WhisperKit, whisper.cpp, Moonshine, Browser Speech) ay nagpapanatili ng iyong audio sa lokal—walang ipinapadala sa anumang server. Ang ElevenLabs at Cartesia ay nagpapadala ng audio sa kanilang mga server para sa transcription (gamit ang iyong API key) at nag-aalok ng mas mataas na katumpakan, lalo na para sa mga wikang hindi Ingles.

Para gamitin ito:

I-click ang microphone icon sa composer
Bigkasin ang iyong mensahe
Itigil kapag tapos ka na
Lalabas ang transcript sa message field
I-edit kung kailangan, pagkatapos ay ipadala

First-time setup: Sa unang pagkakataon na gagamit ka ng on-device speech model, kailangan muna itong i-download at i-warm up. Ipinapakita ng composer ang progreso ("Downloading speech model… N%", pagkatapos ay "Preparing"/"Loading"), kaya asahan ang maikling paghinto sa iyong unang pag-tap sa mic.

System-Wide Dictation (macOS)

Ang mga Pro subscriber sa macOS ay maaari ding mag-install ng PrivateVoice, isang hiwalay na companion app na nagdaragdag ng global press-to-talk hotkey para sa pag-dictate sa anumang application—hindi lang sa Caiioo. Tingnan ang desktop download page para sa mga detalye.

Tingnan Din

Privacy at Data — Paano pinangangasiwaan ang voice data
Platform at Pag-set up — Availability ng desktop app at PrivateVoice
Settings > Voice — I-configure ang mga voice option para sa iyong setup

This guide is maintained by the Caiioo team using Slate, our built-in editor.