Dies ist eine maschinelle Übersetzung des englischen Originaldokuments. Im Falle von Widersprüchen zwischen dieser Übersetzung und der englischen Originalversion ist die englische Version maßgeblich. Englische Originalversion lesen


Voice: Sprechen und Zuhören

Möchten Sie, dass die KI Antworten vorliest? Oder Nachrichten diktieren? Caiioo bietet Sprach-Ein- und Ausgabe – alles konfigurierbar, teils lokal auf Ihrem Gerät laufend.

Spracheinstellungen mit Ein- und Ausgabeoptionen, Auto-Read-Schalter und Wiedergabegeschwindigkeit

Sprachausgabe (Text-to-Speech)

Lassen Sie die KI ihre Antworten laut vorlesen. Wählen Sie aus:

Option Typ Qualität Einrichtung
Browser-Stimmen Lokal Basis Kostenlos, keine Einrichtung
Kokoro Lokal Hoch Kostenlos, läuft auf Ihrem Gerät
Gemini 3.1 Flash TTS Cloud Natürlich OpenRouter API-Key hinzufügen
ElevenLabs Cloud Premium Ihren API-Key hinzufügen
Cartesia (Sonic 3.5) Cloud Premium Ihren API-Key hinzufügen
Resemble.ai Cloud Exzellent (Voice Cloning) Ihren API-Key hinzufügen

Kokoro Download-Größe: Das Kokoro-Modell wird in zwei Varianten ausgeliefert; welche heruntergeladen wird, hängt von Ihrer Plattform ab. macOS und iOS laden das kleinere INT8-quantisierte Modell (~88 MB), während die Extension/der Browser den größeren Full-Precision WebGPU-Build (~330 MB) verwendet. Es handelt sich um einen einmaligen Download.

Plattform-Hinweise:

  • iOS natives Kokoro (v0.9.720+): Läuft im iOS-Host-Prozess via OnnxRuntime anstatt in der WebView, was Abstürze auf dem iPhone 13/14 behebt.
  • macOS Kokoro: Streamt Satz für Satz (innerhalb von ~1 Sekunde nach dem Drücken von Play) durch den Desktop-Helper-Prozess.
  • Gemini TTS (v0.9.723+): Über OpenRouter — spielt jetzt Satz für Satz ab, sodass das Audio nach dem ersten Satz beginnt, anstatt auf die Synthese der gesamten Antwort zu warten.
  • Cartesia (v0.9.723+): Ein API-Key steuert sowohl Sonic 3.5 (Ausgabe) als auch Ink (Eingabe). Es gibt keine Standardstimme – wählen Sie eine unter Einstellungen > Stimme aus, bevor Sie sie aktivieren.

Wiedergabegeschwindigkeit: Der Geschwindigkeitsregler (0,5×–2,0×) wird vom Provider für ElevenLabs (begrenzt auf 0,7–1,2×) und Cartesia (begrenzt auf 0,6–1,5×) angewendet. Browser-Stimmen und Kokoro beschleunigen lokal; Resemble.ai und Gemini haben keine Geschwindigkeitssteuerung und spielen immer in normalem Tempo ab.

So aktivieren Sie es:

  1. Gehen Sie zu Einstellungen > Stimme
  2. Wählen Sie eine Text-to-Speech-Option aus
  3. Aktivieren Sie "Antworten automatisch vorlesen", wenn die KI automatisch lesen soll
  4. Passen Sie die Wiedergabegeschwindigkeit nach Belieben an

Falls die Wiedergabe fehlschlägt: Sprachfehler erscheinen nun als Toast-Benachrichtigung, anstatt lautlos fehlzuschlagen – ein fehlender oder ungültiger API-Key oder eine Stimme, die nicht mit dem ausgewählten Modell kompatibel ist (häufig bei Resemble.ai und Cartesia), sagt Ihnen genau, was zu beheben ist.

Lokal vs. Cloud: Browser-Stimmen und Kokoro senden niemals Daten von Ihrem Gerät weg. Gemini, ElevenLabs, Cartesia und Resemble.ai senden Text an ihre Server (unter Verwendung Ihrer API-Keys), um das Audio zu generieren. Weitere Details finden Sie unter Privacy & Data.

Sprachkosten (TTS + STT) werden als voice_cost in der Konversation zusammengefasst, entsprechend dem One-Shot-Pfad.

Spracheingabe (Speech-to-Text)

Diktieren Sie Ihre Nachrichten, anstatt zu tippen. Klicken Sie auf das Mikrofonsymbol im Composer, um die Aufnahme zu starten. Caiioo transkribiert das Gesagte und fügt es in das Nachrichtenfeld ein.

Wählen Sie die Transkriptionsmethode:

Option Typ Privatsphäre Einrichtung
Whisper (Browser) Lokal Vollständig privat GRATIS, läuft auf Ihrem Gerät
WhisperKit (iOS) Lokal Vollständig privat GRATIS, auf dem Gerät
whisper.cpp & Moonshine (Android) Lokal Vollständig privat GRATIS, auf dem Gerät
Browser Speech Lokal Privat GRATIS, integriert
ElevenLabs Scribe Cloud Präzise (ideal für nicht-englische Sprachen) ElevenLabs API-Key hinzufügen
Cartesia Ink Cloud Präzise, geringe Latenz Cartesia API-Key hinzufügen

Lokale Optionen (Whisper, WhisperKit, whisper.cpp, Moonshine, Browser Speech) behalten Ihr Audio lokal – nichts wird an einen Server gesendet. ElevenLabs und Cartesia senden Audio zur Transkription an deren Server (unter Verwendung Ihres API-Keys) und bieten eine höhere Genauigkeit, insbesondere für Deutsch und andere Sprachen.

Verwendung:

  1. Klicken Sie auf das Mikrofonsymbol im Composer
  2. Sprechen Sie Ihre Nachricht
  3. Stoppen Sie, wenn Sie fertig sind
  4. Das Transkript erscheint im Nachrichtenfeld
  5. Bei Bedarf bearbeiten, dann senden

Ersteinrichtung: Wenn Sie zum ersten Mal ein On-Device-Sprachmodell verwenden, muss dieses heruntergeladen und vorbereitet werden. Der Composer zeigt den Fortschritt an ("Sprachmodell wird heruntergeladen... N%", dann "Vorbereiten"/"Laden"). Eine kurze Pause beim ersten Tippen auf das Mikrofon ist also normal.

Systemweite Diktierfunktion (macOS)

Pro-Abonnenten auf macOS können zusätzlich PrivateVoice installieren, eine separate Begleit-App, die einen globalen Push-to-Talk-Hotkey zum Diktieren in jeder Anwendung hinzufügt – nicht nur in Caiioo. Weitere Details finden Sie auf der Desktop-Download-Seite.

Siehe auch


This guide is maintained by the Caiioo team using Slate, our built-in editor.