Dies ist eine maschinelle Übersetzung des englischen Originaldokuments. Im Falle von Widersprüchen zwischen dieser Übersetzung und der englischen Originalversion ist die englische Version maßgeblich. Englische Originalversion lesen

Voice: Sprechen und Zuhören

Möchten Sie, dass die KI Antworten vorliest? Oder Nachrichten diktieren? Caiioo bietet Sprach-Ein- und Ausgabe – alles konfigurierbar, teils lokal auf Ihrem Gerät laufend.

Spracheinstellungen mit Ein- und Ausgabeoptionen, Auto-Read-Schalter und Wiedergabegeschwindigkeit

Sprachausgabe (Text-to-Speech)

Lassen Sie die KI ihre Antworten laut vorlesen. Wählen Sie aus:

Option	Typ	Qualität	Einrichtung
Browser-Stimmen	Lokal	Basis	Kostenlos, keine Einrichtung
Kokoro	Lokal	Hoch	Kostenlos, läuft auf Ihrem Gerät
Gemini 3.1 Flash TTS	Cloud	Natürlich	OpenRouter API-Key hinzufügen
ElevenLabs	Cloud	Premium	Ihren API-Key hinzufügen
Cartesia (Sonic 3.5)	Cloud	Premium	Ihren API-Key hinzufügen
Resemble.ai	Cloud	Exzellent (Voice Cloning)	Ihren API-Key hinzufügen

Kokoro Download-Größe: Das Kokoro-Modell wird in zwei Varianten ausgeliefert; welche heruntergeladen wird, hängt von Ihrer Plattform ab. macOS und iOS laden das kleinere INT8-quantisierte Modell (~88 MB), während die Extension/der Browser den größeren Full-Precision WebGPU-Build (~330 MB) verwendet. Es handelt sich um einen einmaligen Download.

Plattform-Hinweise:

iOS natives Kokoro (v0.9.720+): Läuft im iOS-Host-Prozess via OnnxRuntime anstatt in der WebView, was Abstürze auf dem iPhone 13/14 behebt.
macOS Kokoro: Streamt Satz für Satz (innerhalb von ~1 Sekunde nach dem Drücken von Play) durch den Desktop-Helper-Prozess.
Gemini TTS (v0.9.723+): Über OpenRouter — spielt jetzt Satz für Satz ab, sodass das Audio nach dem ersten Satz beginnt, anstatt auf die Synthese der gesamten Antwort zu warten.
Cartesia (v0.9.723+): Ein API-Key steuert sowohl Sonic 3.5 (Ausgabe) als auch Ink (Eingabe). Es gibt keine Standardstimme – wählen Sie eine unter Einstellungen > Stimme aus, bevor Sie sie aktivieren.

Wiedergabegeschwindigkeit: Der Geschwindigkeitsregler (0,5×–2,0×) wird vom Provider für ElevenLabs (begrenzt auf 0,7–1,2×) und Cartesia (begrenzt auf 0,6–1,5×) angewendet. Browser-Stimmen und Kokoro beschleunigen lokal; Resemble.ai und Gemini haben keine Geschwindigkeitssteuerung und spielen immer in normalem Tempo ab.

So aktivieren Sie es:

Gehen Sie zu Einstellungen > Stimme
Wählen Sie eine Text-to-Speech-Option aus
Aktivieren Sie "Antworten automatisch vorlesen", wenn die KI automatisch lesen soll
Passen Sie die Wiedergabegeschwindigkeit nach Belieben an

Falls die Wiedergabe fehlschlägt: Sprachfehler erscheinen nun als Toast-Benachrichtigung, anstatt lautlos fehlzuschlagen – ein fehlender oder ungültiger API-Key oder eine Stimme, die nicht mit dem ausgewählten Modell kompatibel ist (häufig bei Resemble.ai und Cartesia), sagt Ihnen genau, was zu beheben ist.

Lokal vs. Cloud: Browser-Stimmen und Kokoro senden niemals Daten von Ihrem Gerät weg. Gemini, ElevenLabs, Cartesia und Resemble.ai senden Text an ihre Server (unter Verwendung Ihrer API-Keys), um das Audio zu generieren. Weitere Details finden Sie unter Privacy & Data.

Sprachkosten (TTS + STT) werden als voice_cost in der Konversation zusammengefasst, entsprechend dem One-Shot-Pfad.

Spracheingabe (Speech-to-Text)

Diktieren Sie Ihre Nachrichten, anstatt zu tippen. Klicken Sie auf das Mikrofonsymbol im Composer, um die Aufnahme zu starten. Caiioo transkribiert das Gesagte und fügt es in das Nachrichtenfeld ein.

Wählen Sie die Transkriptionsmethode:

Option	Typ	Privatsphäre	Einrichtung
Whisper (Browser)	Lokal	Vollständig privat	GRATIS, läuft auf Ihrem Gerät
WhisperKit (iOS)	Lokal	Vollständig privat	GRATIS, auf dem Gerät
whisper.cpp & Moonshine (Android)	Lokal	Vollständig privat	GRATIS, auf dem Gerät
Browser Speech	Lokal	Privat	GRATIS, integriert
ElevenLabs Scribe	Cloud	Präzise (ideal für nicht-englische Sprachen)	ElevenLabs API-Key hinzufügen
Cartesia Ink	Cloud	Präzise, geringe Latenz	Cartesia API-Key hinzufügen

Lokale Optionen (Whisper, WhisperKit, whisper.cpp, Moonshine, Browser Speech) behalten Ihr Audio lokal – nichts wird an einen Server gesendet. ElevenLabs und Cartesia senden Audio zur Transkription an deren Server (unter Verwendung Ihres API-Keys) und bieten eine höhere Genauigkeit, insbesondere für Deutsch und andere Sprachen.

Verwendung:

Klicken Sie auf das Mikrofonsymbol im Composer
Sprechen Sie Ihre Nachricht
Stoppen Sie, wenn Sie fertig sind
Das Transkript erscheint im Nachrichtenfeld
Bei Bedarf bearbeiten, dann senden

Ersteinrichtung: Wenn Sie zum ersten Mal ein On-Device-Sprachmodell verwenden, muss dieses heruntergeladen und vorbereitet werden. Der Composer zeigt den Fortschritt an ("Sprachmodell wird heruntergeladen... N%", dann "Vorbereiten"/"Laden"). Eine kurze Pause beim ersten Tippen auf das Mikrofon ist also normal.

Systemweite Diktierfunktion (macOS)

Pro-Abonnenten auf macOS können zusätzlich PrivateVoice installieren, eine separate Begleit-App, die einen globalen Push-to-Talk-Hotkey zum Diktieren in jeder Anwendung hinzufügt – nicht nur in Caiioo. Weitere Details finden Sie auf der Desktop-Download-Seite.

Siehe auch

Datenschutz & Daten — Umgang mit Sprachdaten
Plattform & Einrichtung — Verfügbarkeit von Desktop-App und PrivateVoice
Einstellungen > Sprache — Konfigurieren Sie die Sprachoptionen für Ihr Setup

This guide is maintained by the Caiioo team using Slate, our built-in editor.