Dit is een machinevertaling van het originele Engelstalige document. In het geval van een conflict tussen deze vertaling en de originele Engelse versie, is de Engelse versie doorslaggevend. Lees de originele Engelse versie


Spraak: Spreken en luisteren

Wil je dat de AI reacties hardop voorleest? Of berichten dicteren in plaats van typen? Caiioo biedt spraakinvoer en -uitvoer — allemaal configureerbaar, sommige draaien lokaal op je apparaat.

Spraakinstellingen met invoer- en uitvoeropties, schakelaar voor automatisch lezen en afspeelsnelheid

Spraakuitvoer (Text-to-Speech)

Laat de AI zijn antwoorden hardop voorlezen. Kies uit:

Optie Type Kwaliteit Installatie
Browserstemmen Lokaal Basis Gratis, geen installatie
Kokoro Lokaal Hoog Gratis, draait op uw apparaat
Gemini 3.1 Flash TTS Cloud Natuurlijk Voeg OpenRouter API key toe
ElevenLabs Cloud Premium Voeg uw API key toe
Cartesia (Sonic 3.5) Cloud Premium Voeg uw API key toe
Resemble.ai Cloud Uitstekend (voice cloning) Voeg uw API key toe

Kokoro downloadgrootte: Het Kokoro model wordt geleverd in twee varianten, en welke wordt gedownload hangt af van uw platform. macOS en iOS laden het kleinere INT8-gekwantiseerde model (~88 MB), terwijl de extensie/browser de grotere full-precision WebGPU build gebruikt (~330 MB). Dit is een eenmalige download.

Platformopmerkingen:

  • iOS native Kokoro (v0.9.720+): Draait in het iOS host-proces via OnnxRuntime in plaats van WebView, wat crashes op iPhone 13/14 verhelpt.
  • macOS Kokoro: Streamt zin-voor-zin (binnen ~1s na het drukken op play) via het desktop helper-proces.
  • Gemini TTS (v0.9.723+): Via OpenRouter — speelt nu zin-voor-zin af, zodat de audio start na de eerste zin in plaats van te wachten tot het volledige antwoord is gesynthetiseerd.
  • Cartesia (v0.9.723+): Eén API key drijft zowel Sonic 3.5 (output) als Ink (input) aan. Er is geen standaardstem—kies er een in Settings > Voice voordat u het inschakelt.

Afspeelsnelheid: De snelheidsschuifregelaar (0,5×–2,0×) wordt toegepast door de provider voor ElevenLabs (beperkt tot 0,7–1,2×) and Cartesia (beperkt tot 0,6–1,5×). Browserstemmen en Kokoro versnellen lokaal; Resemble.ai en Gemini hebben geen snelheidsregeling en spelen altijd af op normale snelheid.

Om het in te schakelen:

  1. Ga naar Settings > Voice
  2. Kies een text-to-speech optie
  3. Schakel "Auto-read responses" in als u wilt dat de AI automatisch voorleest
  4. Pas de afspeelsnelheid naar wens aan

Als afspelen mislukt: Spraakfouten verschijnen nu als een melding (toast) in plaats van stilletjes te mislukken—dus een ontbrekende of ongeldige API key, of een stem die niet compatibel is met het geselecteerde model (vaak bij Resemble.ai en Cartesia), vertelt u precies wat u moet herstellen.

Lokaal vs Cloud: Browserstemmen en Kokoro sturen nooit iets van uw apparaat af. Gemini, ElevenLabs, Cartesia, en Resemble.ai sturen tekst naar hun servers (met gebruik van uw API keys) om de audio te genereren. Zie Privacy & Data voor details.

Spraakkosten (TTS + STT) worden verzameld als voice_cost bij het gesprek, overeenkomend met het one-shot pad.

Spraakinvoer (Speech-to-Text)

Dicteer je berichten in plaats van te typen. Klik op het microfoon-icoon in de composer om de opname te starten. Caiioo transcribeert wat je zegt en plaatst het in het berichtveld.

Kies hoe er wordt getranscribeerd:

Optie Type Privacy Installatie
Whisper (Browser) Lokaal Volledig privé GRATIS, draait op jouw apparaat
WhisperKit (iOS) Lokaal Volledig privé GRATIS, op het apparaat
whisper.cpp & Moonshine (Android) Lokaal Volledig privé GRATIS, op het apparaat
Browser Speech Lokaal Privé GRATIS, ingebouwd
ElevenLabs Scribe Cloud Nauwkeurig (goed voor niet-Engels) Voeg je ElevenLabs API-sleutel toe
Cartesia Ink Cloud Nauwkeurig, lage latentie Voeg je Cartesia API-sleutel toe

Lokale opties (Whisper, WhisperKit, whisper.cpp, Moonshine, Browser Speech) houden je audio lokaal—er wordt niets naar een server gestuurd. ElevenLabs en Cartesia sturen audio naar hun servers voor transcriptie (met jouw API-sleutel) en bieden een hogere nauwkeurigheid, vooral voor niet-Engelse talen.

Hoe te gebruiken:

  1. Klik op het microfoon-icoon in de composer
  2. Spreek je bericht in
  3. Stop wanneer je klaar bent
  4. De transcriptie verschijnt in het berichtveld
  5. Bewerk indien nodig en verzend

Eerste installatie: De eerste keer dat je een lokaal spraakmodel gebruikt, moet het worden gedownload en opgewarmd. De composer toont de voortgang ("Spraakmodel downloaden… N%", daarna "Voorbereiden"/"Laden"), dus een korte pauze bij de eerste klik op de microfoon is normaal en geen vastloper.

Systeembreed dicteren (macOS)

Pro-abonnees op macOS kunnen ook PrivateVoice installeren, een aparte bijbehorende app die een globale sneltoets toevoegt om in elke applicatie te dicteren — niet alleen in Caiioo. Zie de desktop-downloadpagina voor details.

Zie ook


This guide is maintained by the Caiioo team using Slate, our built-in editor.