Detta är en maskinöversättning av det engelska originaldokumentet. Vid eventuella avvikelser mellan denna översättning och den engelska originalversionen ska den engelska versionen ha företräde. Läs den engelska originalversionen
Röst: Tala och lyssna
Vill du att AI:n ska läsa upp svar? Eller diktera meddelanden istället för att skriva? Caiioo erbjuder röstinmatning och röstutmatning — allt konfigurerbart, vissa körs lokalt på din enhet.

Röstutmatning (Text-till-tal)
Låt AI:n läsa upp sina svar. Välj mellan:
| Alternativ | Typ | Kvalitet | Installation |
|---|---|---|---|
| Webbläsarröster | Lokal | Grundläggande | Gratis, ingen installation |
| Kokoro | Lokal | Hög | Gratis, körs på din enhet |
| Gemini 3.1 Flash TTS | Moln | Naturlig | Lägg till OpenRouter API-nyckel |
| ElevenLabs | Moln | Premium | Lägg till din API-nyckel |
| Cartesia (Sonic 3.5) | Moln | Premium | Lägg till din API-nyckel |
| Resemble.ai | Moln | Utmärkt (röstkloning) | Lägg till din API-nyckel |
Kokoro nedladdningsstorlek: Kokoro-modellen levereras i två varianter, och vilken som laddas ner beror på din plattform. macOS och iOS laddar den mindre INT8-kvantiserade modellen (~88 MB), medan tillägget/webbläsaren använder den större full-precision WebGPU-versionen (~330 MB). Det är en engångsnedladdning.
Plattformsnoteringar:
- iOS nativ Kokoro (v0.9.720+): Körs i iOS-värdprocessen via OnnxRuntime istället för WebView, vilket åtgärdar krascher på iPhone 13/14.
- macOS Kokoro: Strömmar mening för mening (inom ~1s efter att du tryckt på play) genom skrivbordets hjälpprocess.
- Gemini TTS (v0.9.723+): Via OpenRouter — spelar nu upp mening för mening, så ljudet startar efter första meningen istället för att vänta på att hela svaret ska syntetiseras.
- Cartesia (v0.9.723+): En API-nyckel driver både Sonic 3.5 (utmatning) och Ink (inmatning). Det finns ingen standardröst — välj en i Inställningar > Röst innan du aktiverar den.
Uppspelningshastighet: Hastighetsreglaget (0,5×–2,0×) tillämpas av leverantören för ElevenLabs (begränsat till 0,7–1,2×) och Cartesia (begränsat till 0,6–1,5×). Webbläsarröster och Kokoro snabbas upp lokalt; Resemble.ai och Gemini har ingen hastighetskontroll och spelas alltid upp i normal takt.
För att aktivera det:
- Gå till Inställningar > Röst
- Välj ett alternativ för text-till-tal
- Slå på "Läs upp svar automatiskt" om du vill att AI:n ska läsa upp automatiskt
- Justera uppspelningshastigheten om du vill
Om uppspelningen misslyckas: Röstfel visas nu som ett meddelande (toast) istället för att misslyckas tyst — så en saknad eller ogiltig API-nyckel, eller en röst som inte är kompatibel med den valda modellen (vanligt med Resemble.ai och Cartesia), talar om exakt vad som behöver åtgärdas.
Lokalt vs Moln: Webbläsarröster och Kokoro skickar aldrig något utanför din enhet. Gemini, ElevenLabs, Cartesia och Resemble.ai skickar text till sina servrar (med dina API-nycklar) för att generera ljudet. Se Privacy & Data för detaljer.
Röstkostnader (TTS + STT) sammanställs som voice_cost för konversationen, i enlighet med one-shot-vägen.
Röstinmatning (Tal-till-text)
Diktera dina meddelanden istället för att skriva. Klicka på mikrofonikonen i kompositören för att börja spela in. Caiioo transkriberar vad du säger och lägger in det i meddelandefältet.
Välj hur det transkriberas:
| Alternativ | Typ | Integritet | Installation |
|---|---|---|---|
| Whisper (Webbläsare) | Lokal | Helt privat | Gratis, körs på din enhet |
| WhisperKit (iOS) | Lokal | Helt privat | Gratis, på enheten |
| whisper.cpp & Moonshine (Android) | Lokal | Helt privat | Gratis, på enheten |
| Webbläsartal | Lokal | Privat | Gratis, inbyggd |
| ElevenLabs Scribe | Moln | Exakt (bra för icke-engelska) | Lägg till din ElevenLabs API-nyckel |
| Cartesia Ink | Moln | Exakt, låg latens | Lägg till din Cartesia API-nyckel |
Lokala alternativ (Whisper, WhisperKit, whisper.cpp, Moonshine, Webbläsartal) behåller ditt ljud lokalt — inget skickas till någon server. ElevenLabs och Cartesia skickar ljud till sina servrar för transkribering (med din API-nyckel) och erbjuder högre noggrannhet, särskilt för andra språk än engelska.
För att använda det:
- Klicka på mikrofonikonen i kompositören
- Säg ditt meddelande
- Stoppa när du är klar
- Transkriberingen visas i meddelandefältet
- Redigera vid behov, skicka sedan
Förstagångsinställning: Första gången du använder en talmodell på enheten måste den laddas ner och förberedas. Kompositören visar framsteg ("Laddar ner talmodell... N%", sedan "Förbereder"/"Laddar"), så en kort paus vid ditt första tryck på mikrofonen är förväntat, inte ett häng.
Systemomfattande diktering (macOS)
Pro-prenumeranter på macOS kan också installera PrivateVoice, en separat medföljande app som lägger till en global snabbknapp för att diktera i vilket program som helst — inte bara Caiioo. Se nedladdningssidan för skrivbord för detaljer.
Se även
- Integritet & Data — Hur röstdata hanteras
- Plattform & Installation — Tillgänglighet för skrivbordsapp och PrivateVoice
- Inställningar > Röst — Konfigurera röstalternativ för din setup
This guide is maintained by the Caiioo team using Slate, our built-in editor.