Dit is een machinevertaling van het originele Engelstalige document. In het geval van een conflict tussen deze vertaling en de originele Engelse versie, is de Engelse versie doorslaggevend. Lees de originele Engelse versie

Spraak: Spreken en luisteren

Wil je dat de AI reacties hardop voorleest? Of berichten dicteren in plaats van typen? Caiioo biedt spraakinvoer en -uitvoer — allemaal configureerbaar, sommige draaien lokaal op je apparaat.

Spraakinstellingen met invoer- en uitvoeropties, schakelaar voor automatisch lezen en afspeelsnelheid

Spraakuitvoer (Text-to-Speech)

Laat de AI zijn antwoorden hardop voorlezen. Kies uit:

Optie	Type	Kwaliteit	Installatie
Browserstemmen	Lokaal	Basis	Gratis, geen installatie
Kokoro	Lokaal	Hoog	Gratis, draait op uw apparaat
Gemini 3.1 Flash TTS	Cloud	Natuurlijk	Voeg OpenRouter API key toe
ElevenLabs	Cloud	Premium	Voeg uw API key toe
Cartesia (Sonic 3.5)	Cloud	Premium	Voeg uw API key toe
Resemble.ai	Cloud	Uitstekend (voice cloning)	Voeg uw API key toe

Kokoro downloadgrootte: Het Kokoro model wordt geleverd in twee varianten, en welke wordt gedownload hangt af van uw platform. macOS en iOS laden het kleinere INT8-gekwantiseerde model (~88 MB), terwijl de extensie/browser de grotere full-precision WebGPU build gebruikt (~330 MB). Dit is een eenmalige download.

Platformopmerkingen:

iOS native Kokoro (v0.9.720+): Draait in het iOS host-proces via OnnxRuntime in plaats van WebView, wat crashes op iPhone 13/14 verhelpt.
macOS Kokoro: Streamt zin-voor-zin (binnen ~1s na het drukken op play) via het desktop helper-proces.
Gemini TTS (v0.9.723+): Via OpenRouter — speelt nu zin-voor-zin af, zodat de audio start na de eerste zin in plaats van te wachten tot het volledige antwoord is gesynthetiseerd.
Cartesia (v0.9.723+): Eén API key drijft zowel Sonic 3.5 (output) als Ink (input) aan. Er is geen standaardstem—kies er een in Settings > Voice voordat u het inschakelt.

Afspeelsnelheid: De snelheidsschuifregelaar (0,5×–2,0×) wordt toegepast door de provider voor ElevenLabs (beperkt tot 0,7–1,2×) and Cartesia (beperkt tot 0,6–1,5×). Browserstemmen en Kokoro versnellen lokaal; Resemble.ai en Gemini hebben geen snelheidsregeling en spelen altijd af op normale snelheid.

Om het in te schakelen:

Ga naar Settings > Voice
Kies een text-to-speech optie
Schakel "Auto-read responses" in als u wilt dat de AI automatisch voorleest
Pas de afspeelsnelheid naar wens aan

Als afspelen mislukt: Spraakfouten verschijnen nu als een melding (toast) in plaats van stilletjes te mislukken—dus een ontbrekende of ongeldige API key, of een stem die niet compatibel is met het geselecteerde model (vaak bij Resemble.ai en Cartesia), vertelt u precies wat u moet herstellen.

Lokaal vs Cloud: Browserstemmen en Kokoro sturen nooit iets van uw apparaat af. Gemini, ElevenLabs, Cartesia, en Resemble.ai sturen tekst naar hun servers (met gebruik van uw API keys) om de audio te genereren. Zie Privacy & Data voor details.

Spraakkosten (TTS + STT) worden verzameld als voice_cost bij het gesprek, overeenkomend met het one-shot pad.

Spraakinvoer (Speech-to-Text)

Dicteer je berichten in plaats van te typen. Klik op het microfoon-icoon in de composer om de opname te starten. Caiioo transcribeert wat je zegt en plaatst het in het berichtveld.

Kies hoe er wordt getranscribeerd:

Optie	Type	Privacy	Installatie
Whisper (Browser)	Lokaal	Volledig privé	GRATIS, draait op jouw apparaat
WhisperKit (iOS)	Lokaal	Volledig privé	GRATIS, op het apparaat
whisper.cpp & Moonshine (Android)	Lokaal	Volledig privé	GRATIS, op het apparaat
Browser Speech	Lokaal	Privé	GRATIS, ingebouwd
ElevenLabs Scribe	Cloud	Nauwkeurig (goed voor niet-Engels)	Voeg je ElevenLabs API-sleutel toe
Cartesia Ink	Cloud	Nauwkeurig, lage latentie	Voeg je Cartesia API-sleutel toe

Lokale opties (Whisper, WhisperKit, whisper.cpp, Moonshine, Browser Speech) houden je audio lokaal—er wordt niets naar een server gestuurd. ElevenLabs en Cartesia sturen audio naar hun servers voor transcriptie (met jouw API-sleutel) en bieden een hogere nauwkeurigheid, vooral voor niet-Engelse talen.

Hoe te gebruiken:

Klik op het microfoon-icoon in de composer
Spreek je bericht in
Stop wanneer je klaar bent
De transcriptie verschijnt in het berichtveld
Bewerk indien nodig en verzend

Eerste installatie: De eerste keer dat je een lokaal spraakmodel gebruikt, moet het worden gedownload en opgewarmd. De composer toont de voortgang ("Spraakmodel downloaden… N%", daarna "Voorbereiden"/"Laden"), dus een korte pauze bij de eerste klik op de microfoon is normaal en geen vastloper.

Systeembreed dicteren (macOS)

Pro-abonnees op macOS kunnen ook PrivateVoice installeren, een aparte bijbehorende app die een globale sneltoets toevoegt om in elke applicatie te dicteren — niet alleen in Caiioo. Zie de desktop-downloadpagina voor details.

Zie ook

Privacy & Gegevens — Hoe spraakgegevens worden verwerkt
Platform & Installatie — Beschikbaarheid van desktop-app en PrivateVoice
Instellingen > Spraak — Configureer spraakopties voor uw setup

This guide is maintained by the Caiioo team using Slate, our built-in editor.