Huu ni utafsiri wa mashine wa hati asili ya Kiingereza. Ikitokea mgongano wowote kati ya tafsiri hii na toleo asili la Kiingereza, toleo la Kiingereza ndilo litakalozingatiwa. Soma toleo asili la Kiingereza


Sauti: Sema na Usikilize

Unataka AI isome majibu kwa sauti? Au imla ujumbe badala ya kuandika? Caiioo inatoa ingizo na pato la sauti—zote zinaweza kusanidiwa, zingine zikijiendesha ndani ya kifaa chako.

Mipangilio ya sauti yenye chaguo za ingizo na pato, kugeuza kusoma kiotomatiki, na kasi ya uchezaji

Toleo la Sauti (Text-to-Speech)

Fanya AI isome majibu yake kwa sauti. Chagua kutoka:

Chaguo Aina Ubora Usanidi
Browser Voices Local Ya kawaida Bure, hakuna usanidi
Kokoro Local Juu Bure, inajiendesha kwenye kifaa chako
Gemini 3.1 Flash TTS Cloud Ya asili Ongeza OpenRouter API key
ElevenLabs Cloud Bora zaidi Ongeza API key yako
Cartesia (Sonic 3.5) Cloud Bora zaidi Ongeza API key yako
Resemble.ai Cloud Bora sana (kunakili sauti) Ongeza API key yako

Ukubwa wa kupakua Kokoro: Model ya Kokoro inakuja katika matoleo mawili, na toleo linalopakuliwa linategemea jukwaa lako. macOS na iOS hupakia model ndogo ya INT8-quantized (~88 MB), wakati extension/browser hutumia toleo kubwa la full-precision WebGPU build (~330 MB). Ni upakuaji wa mara moja tu.

Maelezo ya Jukwaa:

  • iOS native Kokoro (v0.9.720+): Inajiendesha kwenye iOS host process kupitia OnnxRuntime badala ya WebView, ikirekebisha matatizo ya kufunga ghafla (crashes) kwenye iPhone 13/14.
  • macOS Kokoro: Inatiririsha sentensi kwa sentensi (ndani ya ~sekunde 1 baada ya kubonyeza play) kupitia desktop helper process.
  • Gemini TTS (v0.9.723+): Kupitia OpenRouter — sasa inacheza sentensi kwa sentensi, hivyo sauti huanza baada ya sentensi ya kwanza badala ya kusubiri jibu lote liandaliwe.
  • Cartesia (v0.9.723+): API key moja inaendesha Sonic 3.5 (tokeo) na Ink (ingizo). Hakuna sauti ya msingi—chagua moja katika Settings > Voice kabla ya kuiwasha.

Kasi ya uchezaji: Kitelezi cha kasi (0.5×–2.0×) kinatumiwa na mtoa huduma kwa ElevenLabs (imefungwa kati ya 0.7–1.2×) na Cartesia (imefungwa kati ya 0.6–1.5×). Browser voices na Kokoro huongeza kasi ndani ya kifaa; Resemble.ai na Gemini hazina udhibiti wa kasi na kila wakati hucheza kwa kasi ya kawaida.

Ili kuiwasha:

  1. Nenda kwenye Settings > Voice
  2. Chagua chaguo la text-to-speech
  3. Washa "Auto-read responses" ikiwa unataka AI isome moja kwa moja
  4. Rekebisha kasi ya uchezaji ukipenda

Ikiwa uchezaji utafeli: Hitilafu za sauti sasa zinaonekana kama ujumbe wa "toast" badala ya kufeli kimya kimya—hivyo API key inayokosekana au isiyo sahihi, au sauti ambayo haiendani na model iliyochaguliwa (kawaida kwa Resemble.ai na Cartesia), inakuambia sawasawa nini cha kurekebisha.

Local dhidi ya Cloud: Browser voices na Kokoro hazitumi chochote nje ya kifaa chako. Gemini, ElevenLabs, Cartesia, na Resemble.ai hutuma maandishi kwenye seva zao (wakitumia API keys zako) ili kutengeneza sauti. Angalia Privacy & Data kwa maelezo zaidi.

Gharama za sauti (TTS + STT) zinajumuishwa kama voice_cost kwenye mazungumzo, zikiendana na mfumo wa one-shot.

Ingizo la Sauti (Hotuba-hadi-Maandishi)

Sema ujumbe wako badala ya kuandika. Bonyeza aikoni ya maikrofoni kwenye sehemu ya kuandikia ili kuanza kurekodi. Caiioo itanakili unachosema na kukiweka kwenye sehemu ya ujumbe.

Chagua jinsi inavyonakili:

Chaguo Aina Faragha Usanidi
Whisper (Kivinjari) Ndani Faragha kabisa FREE, inafanya kazi kwenye kifaa chako
WhisperKit (iOS) Ndani Faragha kabisa FREE, kwenye kifaa
whisper.cpp & Moonshine (Android) Ndani Faragha kabisa FREE, kwenye kifaa
Browser Speech Ndani Faragha FREE, imejengwa ndani
ElevenLabs Scribe Wingu Sahihi (nzuri kwa lugha zisizo Kiingereza) Ongeza ufunguo wako wa API wa ElevenLabs
Cartesia Ink Wingu Sahihi, ucheleweshaji mdogo Ongeza ufunguo wako wa API wa Cartesia

Chaguzi za ndani (Whisper, WhisperKit, whisper.cpp, Moonshine, Browser Speech) huweka sauti yako ndani ya kifaa—hakuna kinachotumwa kwenye seva yoyote. ElevenLabs na Cartesia hutuma sauti kwenye seva zao kwa ajili ya unukuzi (kwa kutumia ufunguo wako wa API) na hutoa usahihi wa juu, hasa kwa lugha zisizo Kiingereza.

Ili kuitumia:

  1. Bonyeza aikoni ya maikrofoni kwenye sehemu ya kuandikia
  2. Sema ujumbe wako
  3. Simama unapomaliza
  4. Nakala inaonekana kwenye sehemu ya ujumbe
  5. Hariri ikihitajika, kisha tuma

Usanidi wa mara ya kwanza: Mara ya kwanza unapotumia modeli ya hotuba kwenye kifaa, inapaswa kupakuliwa na kutayarishwa. Sehemu ya kuandikia inaonyesha maendeleo ("Inapakua modeli ya hotuba… N%", kisha "Inatayarisha"/"Inapakia"), kwa hivyo kusubiri kidogo kwenye mguso wako wa kwanza wa maikrofoni kunatarajiwa, si kukwama.

Imla ya Mfumo Mzima (macOS)

Wasajili wa Pro kwenye macOS wanaweza pia kusakinisha PrivateVoice, programu tofauti inayoongeza kitufe cha mkato cha kimataifa cha kuandika kwa sauti kwenye programu yoyote—sio Caiioo pekee. Tazama ukurasa wa upakuaji wa kompyuta kwa maelezo.

Angalia Pia

  • Faragha na Data — Jinsi data ya sauti inavyoshughulikiwa
  • Jukwaa na Usanidi — Upatikanaji wa programu ya kompyuta na PrivateVoice
  • Mipangilio > Sauti — Sanidi chaguo za sauti kwa usanidi wako

This guide is maintained by the Caiioo team using Slate, our built-in editor.