Dit is een machinevertaling van het originele Engelstalige document. In het geval van een conflict tussen deze vertaling en de originele Engelse versie, is de Engelse versie doorslaggevend. Lees de originele Engelse versie
Spraak: Spreken en luisteren
Wil je dat de AI reacties hardop voorleest? Of berichten dicteren in plaats van typen? Caiioo biedt spraakinvoer en -uitvoer — allemaal configureerbaar, sommige draaien lokaal op je apparaat.

Spraakuitvoer (Text-to-Speech)
Laat de AI zijn antwoorden hardop voorlezen. Kies uit:
| Optie | Type | Kwaliteit | Installatie |
|---|---|---|---|
| Browserstemmen | Lokaal | Basis | Gratis, geen installatie |
| Kokoro | Lokaal | Hoog | Gratis, draait op uw apparaat |
| Gemini 3.1 Flash TTS | Cloud | Natuurlijk | Voeg OpenRouter API key toe |
| ElevenLabs | Cloud | Premium | Voeg uw API key toe |
| Cartesia (Sonic 3.5) | Cloud | Premium | Voeg uw API key toe |
| Resemble.ai | Cloud | Uitstekend (voice cloning) | Voeg uw API key toe |
Kokoro downloadgrootte: Het Kokoro model wordt geleverd in twee varianten, en welke wordt gedownload hangt af van uw platform. macOS en iOS laden het kleinere INT8-gekwantiseerde model (~88 MB), terwijl de extensie/browser de grotere full-precision WebGPU build gebruikt (~330 MB). Dit is een eenmalige download.
Platformopmerkingen:
- iOS native Kokoro (v0.9.720+): Draait in het iOS host-proces via OnnxRuntime in plaats van WebView, wat crashes op iPhone 13/14 verhelpt.
- macOS Kokoro: Streamt zin-voor-zin (binnen ~1s na het drukken op play) via het desktop helper-proces.
- Gemini TTS (v0.9.723+): Via OpenRouter — speelt nu zin-voor-zin af, zodat de audio start na de eerste zin in plaats van te wachten tot het volledige antwoord is gesynthetiseerd.
- Cartesia (v0.9.723+): Eén API key drijft zowel Sonic 3.5 (output) als Ink (input) aan. Er is geen standaardstem—kies er een in Settings > Voice voordat u het inschakelt.
Afspeelsnelheid: De snelheidsschuifregelaar (0,5×–2,0×) wordt toegepast door de provider voor ElevenLabs (beperkt tot 0,7–1,2×) and Cartesia (beperkt tot 0,6–1,5×). Browserstemmen en Kokoro versnellen lokaal; Resemble.ai en Gemini hebben geen snelheidsregeling en spelen altijd af op normale snelheid.
Om het in te schakelen:
- Ga naar Settings > Voice
- Kies een text-to-speech optie
- Schakel "Auto-read responses" in als u wilt dat de AI automatisch voorleest
- Pas de afspeelsnelheid naar wens aan
Als afspelen mislukt: Spraakfouten verschijnen nu als een melding (toast) in plaats van stilletjes te mislukken—dus een ontbrekende of ongeldige API key, of een stem die niet compatibel is met het geselecteerde model (vaak bij Resemble.ai en Cartesia), vertelt u precies wat u moet herstellen.
Lokaal vs Cloud: Browserstemmen en Kokoro sturen nooit iets van uw apparaat af. Gemini, ElevenLabs, Cartesia, en Resemble.ai sturen tekst naar hun servers (met gebruik van uw API keys) om de audio te genereren. Zie Privacy & Data voor details.
Spraakkosten (TTS + STT) worden verzameld als voice_cost bij het gesprek, overeenkomend met het one-shot pad.
Spraakinvoer (Speech-to-Text)
Dicteer je berichten in plaats van te typen. Klik op het microfoon-icoon in de composer om de opname te starten. Caiioo transcribeert wat je zegt en plaatst het in het berichtveld.
Kies hoe er wordt getranscribeerd:
| Optie | Type | Privacy | Installatie |
|---|---|---|---|
| Whisper (Browser) | Lokaal | Volledig privé | GRATIS, draait op jouw apparaat |
| WhisperKit (iOS) | Lokaal | Volledig privé | GRATIS, op het apparaat |
| whisper.cpp & Moonshine (Android) | Lokaal | Volledig privé | GRATIS, op het apparaat |
| Browser Speech | Lokaal | Privé | GRATIS, ingebouwd |
| ElevenLabs Scribe | Cloud | Nauwkeurig (goed voor niet-Engels) | Voeg je ElevenLabs API-sleutel toe |
| Cartesia Ink | Cloud | Nauwkeurig, lage latentie | Voeg je Cartesia API-sleutel toe |
Lokale opties (Whisper, WhisperKit, whisper.cpp, Moonshine, Browser Speech) houden je audio lokaal—er wordt niets naar een server gestuurd. ElevenLabs en Cartesia sturen audio naar hun servers voor transcriptie (met jouw API-sleutel) en bieden een hogere nauwkeurigheid, vooral voor niet-Engelse talen.
Hoe te gebruiken:
- Klik op het microfoon-icoon in de composer
- Spreek je bericht in
- Stop wanneer je klaar bent
- De transcriptie verschijnt in het berichtveld
- Bewerk indien nodig en verzend
Eerste installatie: De eerste keer dat je een lokaal spraakmodel gebruikt, moet het worden gedownload en opgewarmd. De composer toont de voortgang ("Spraakmodel downloaden… N%", daarna "Voorbereiden"/"Laden"), dus een korte pauze bij de eerste klik op de microfoon is normaal en geen vastloper.
Systeembreed dicteren (macOS)
Pro-abonnees op macOS kunnen ook PrivateVoice installeren, een aparte bijbehorende app die een globale sneltoets toevoegt om in elke applicatie te dicteren — niet alleen in Caiioo. Zie de desktop-downloadpagina voor details.
Zie ook
- Privacy & Gegevens — Hoe spraakgegevens worden verwerkt
- Platform & Installatie — Beschikbaarheid van desktop-app en PrivateVoice
- Instellingen > Spraak — Configureer spraakopties voor uw setup
This guide is maintained by the Caiioo team using Slate, our built-in editor.