Detta är en maskinöversättning av det engelska originaldokumentet. Vid eventuella avvikelser mellan denna översättning och den engelska originalversionen ska den engelska versionen ha företräde. Läs den engelska originalversionen


Röst: Tala och lyssna

Vill du att AI:n ska läsa upp svar? Eller diktera meddelanden istället för att skriva? Caiioo erbjuder röstinmatning och röstutmatning — allt konfigurerbart, vissa körs lokalt på din enhet.

Röstinställningar med in- och utmatningsalternativ, reglage för automatisk uppläsning och uppspelningshastighet

Röstutmatning (Text-till-tal)

Låt AI:n läsa upp sina svar. Välj mellan:

Alternativ Typ Kvalitet Installation
Webbläsarröster Lokal Grundläggande Gratis, ingen installation
Kokoro Lokal Hög Gratis, körs på din enhet
Gemini 3.1 Flash TTS Moln Naturlig Lägg till OpenRouter API-nyckel
ElevenLabs Moln Premium Lägg till din API-nyckel
Cartesia (Sonic 3.5) Moln Premium Lägg till din API-nyckel
Resemble.ai Moln Utmärkt (röstkloning) Lägg till din API-nyckel

Kokoro nedladdningsstorlek: Kokoro-modellen levereras i två varianter, och vilken som laddas ner beror på din plattform. macOS och iOS laddar den mindre INT8-kvantiserade modellen (~88 MB), medan tillägget/webbläsaren använder den större full-precision WebGPU-versionen (~330 MB). Det är en engångsnedladdning.

Plattformsnoteringar:

  • iOS nativ Kokoro (v0.9.720+): Körs i iOS-värdprocessen via OnnxRuntime istället för WebView, vilket åtgärdar krascher på iPhone 13/14.
  • macOS Kokoro: Strömmar mening för mening (inom ~1s efter att du tryckt på play) genom skrivbordets hjälpprocess.
  • Gemini TTS (v0.9.723+): Via OpenRouter — spelar nu upp mening för mening, så ljudet startar efter första meningen istället för att vänta på att hela svaret ska syntetiseras.
  • Cartesia (v0.9.723+): En API-nyckel driver både Sonic 3.5 (utmatning) och Ink (inmatning). Det finns ingen standardröst — välj en i Inställningar > Röst innan du aktiverar den.

Uppspelningshastighet: Hastighetsreglaget (0,5×–2,0×) tillämpas av leverantören för ElevenLabs (begränsat till 0,7–1,2×) och Cartesia (begränsat till 0,6–1,5×). Webbläsarröster och Kokoro snabbas upp lokalt; Resemble.ai och Gemini har ingen hastighetskontroll och spelas alltid upp i normal takt.

För att aktivera det:

  1. Gå till Inställningar > Röst
  2. Välj ett alternativ för text-till-tal
  3. Slå på "Läs upp svar automatiskt" om du vill att AI:n ska läsa upp automatiskt
  4. Justera uppspelningshastigheten om du vill

Om uppspelningen misslyckas: Röstfel visas nu som ett meddelande (toast) istället för att misslyckas tyst — så en saknad eller ogiltig API-nyckel, eller en röst som inte är kompatibel med den valda modellen (vanligt med Resemble.ai och Cartesia), talar om exakt vad som behöver åtgärdas.

Lokalt vs Moln: Webbläsarröster och Kokoro skickar aldrig något utanför din enhet. Gemini, ElevenLabs, Cartesia och Resemble.ai skickar text till sina servrar (med dina API-nycklar) för att generera ljudet. Se Privacy & Data för detaljer.

Röstkostnader (TTS + STT) sammanställs som voice_cost för konversationen, i enlighet med one-shot-vägen.

Röstinmatning (Tal-till-text)

Diktera dina meddelanden istället för att skriva. Klicka på mikrofonikonen i kompositören för att börja spela in. Caiioo transkriberar vad du säger och lägger in det i meddelandefältet.

Välj hur det transkriberas:

Alternativ Typ Integritet Installation
Whisper (Webbläsare) Lokal Helt privat Gratis, körs på din enhet
WhisperKit (iOS) Lokal Helt privat Gratis, på enheten
whisper.cpp & Moonshine (Android) Lokal Helt privat Gratis, på enheten
Webbläsartal Lokal Privat Gratis, inbyggd
ElevenLabs Scribe Moln Exakt (bra för icke-engelska) Lägg till din ElevenLabs API-nyckel
Cartesia Ink Moln Exakt, låg latens Lägg till din Cartesia API-nyckel

Lokala alternativ (Whisper, WhisperKit, whisper.cpp, Moonshine, Webbläsartal) behåller ditt ljud lokalt — inget skickas till någon server. ElevenLabs och Cartesia skickar ljud till sina servrar för transkribering (med din API-nyckel) och erbjuder högre noggrannhet, särskilt för andra språk än engelska.

För att använda det:

  1. Klicka på mikrofonikonen i kompositören
  2. Säg ditt meddelande
  3. Stoppa när du är klar
  4. Transkriberingen visas i meddelandefältet
  5. Redigera vid behov, skicka sedan

Förstagångsinställning: Första gången du använder en talmodell på enheten måste den laddas ner och förberedas. Kompositören visar framsteg ("Laddar ner talmodell... N%", sedan "Förbereder"/"Laddar"), så en kort paus vid ditt första tryck på mikrofonen är förväntat, inte ett häng.

Systemomfattande diktering (macOS)

Pro-prenumeranter på macOS kan också installera PrivateVoice, en separat medföljande app som lägger till en global snabbknapp för att diktera i vilket program som helst — inte bara Caiioo. Se nedladdningssidan för skrivbord för detaljer.

Se även


This guide is maintained by the Caiioo team using Slate, our built-in editor.