Dies ist eine maschinelle Übersetzung des englischen Originaldokuments. Im Falle von Widersprüchen zwischen dieser Übersetzung und der englischen Originalversion ist die englische Version maßgeblich. Englische Originalversion lesen
Voice: Sprechen und Zuhören
Möchten Sie, dass die KI Antworten vorliest? Oder Nachrichten diktieren? Caiioo bietet Sprach-Ein- und Ausgabe – alles konfigurierbar, teils lokal auf Ihrem Gerät laufend.

Sprachausgabe (Text-to-Speech)
Lassen Sie die KI ihre Antworten laut vorlesen. Wählen Sie aus:
| Option | Typ | Qualität | Einrichtung |
|---|---|---|---|
| Browser-Stimmen | Lokal | Basis | Kostenlos, keine Einrichtung |
| Kokoro | Lokal | Hoch | Kostenlos, läuft auf Ihrem Gerät |
| Gemini 3.1 Flash TTS | Cloud | Natürlich | OpenRouter API-Key hinzufügen |
| ElevenLabs | Cloud | Premium | Ihren API-Key hinzufügen |
| Cartesia (Sonic 3.5) | Cloud | Premium | Ihren API-Key hinzufügen |
| Resemble.ai | Cloud | Exzellent (Voice Cloning) | Ihren API-Key hinzufügen |
Kokoro Download-Größe: Das Kokoro-Modell wird in zwei Varianten ausgeliefert; welche heruntergeladen wird, hängt von Ihrer Plattform ab. macOS und iOS laden das kleinere INT8-quantisierte Modell (~88 MB), während die Extension/der Browser den größeren Full-Precision WebGPU-Build (~330 MB) verwendet. Es handelt sich um einen einmaligen Download.
Plattform-Hinweise:
- iOS natives Kokoro (v0.9.720+): Läuft im iOS-Host-Prozess via OnnxRuntime anstatt in der WebView, was Abstürze auf dem iPhone 13/14 behebt.
- macOS Kokoro: Streamt Satz für Satz (innerhalb von ~1 Sekunde nach dem Drücken von Play) durch den Desktop-Helper-Prozess.
- Gemini TTS (v0.9.723+): Über OpenRouter — spielt jetzt Satz für Satz ab, sodass das Audio nach dem ersten Satz beginnt, anstatt auf die Synthese der gesamten Antwort zu warten.
- Cartesia (v0.9.723+): Ein API-Key steuert sowohl Sonic 3.5 (Ausgabe) als auch Ink (Eingabe). Es gibt keine Standardstimme – wählen Sie eine unter Einstellungen > Stimme aus, bevor Sie sie aktivieren.
Wiedergabegeschwindigkeit: Der Geschwindigkeitsregler (0,5×–2,0×) wird vom Provider für ElevenLabs (begrenzt auf 0,7–1,2×) und Cartesia (begrenzt auf 0,6–1,5×) angewendet. Browser-Stimmen und Kokoro beschleunigen lokal; Resemble.ai und Gemini haben keine Geschwindigkeitssteuerung und spielen immer in normalem Tempo ab.
So aktivieren Sie es:
- Gehen Sie zu Einstellungen > Stimme
- Wählen Sie eine Text-to-Speech-Option aus
- Aktivieren Sie "Antworten automatisch vorlesen", wenn die KI automatisch lesen soll
- Passen Sie die Wiedergabegeschwindigkeit nach Belieben an
Falls die Wiedergabe fehlschlägt: Sprachfehler erscheinen nun als Toast-Benachrichtigung, anstatt lautlos fehlzuschlagen – ein fehlender oder ungültiger API-Key oder eine Stimme, die nicht mit dem ausgewählten Modell kompatibel ist (häufig bei Resemble.ai und Cartesia), sagt Ihnen genau, was zu beheben ist.
Lokal vs. Cloud: Browser-Stimmen und Kokoro senden niemals Daten von Ihrem Gerät weg. Gemini, ElevenLabs, Cartesia und Resemble.ai senden Text an ihre Server (unter Verwendung Ihrer API-Keys), um das Audio zu generieren. Weitere Details finden Sie unter Privacy & Data.
Sprachkosten (TTS + STT) werden als voice_cost in der Konversation zusammengefasst, entsprechend dem One-Shot-Pfad.
Spracheingabe (Speech-to-Text)
Diktieren Sie Ihre Nachrichten, anstatt zu tippen. Klicken Sie auf das Mikrofonsymbol im Composer, um die Aufnahme zu starten. Caiioo transkribiert das Gesagte und fügt es in das Nachrichtenfeld ein.
Wählen Sie die Transkriptionsmethode:
| Option | Typ | Privatsphäre | Einrichtung |
|---|---|---|---|
| Whisper (Browser) | Lokal | Vollständig privat | GRATIS, läuft auf Ihrem Gerät |
| WhisperKit (iOS) | Lokal | Vollständig privat | GRATIS, auf dem Gerät |
| whisper.cpp & Moonshine (Android) | Lokal | Vollständig privat | GRATIS, auf dem Gerät |
| Browser Speech | Lokal | Privat | GRATIS, integriert |
| ElevenLabs Scribe | Cloud | Präzise (ideal für nicht-englische Sprachen) | ElevenLabs API-Key hinzufügen |
| Cartesia Ink | Cloud | Präzise, geringe Latenz | Cartesia API-Key hinzufügen |
Lokale Optionen (Whisper, WhisperKit, whisper.cpp, Moonshine, Browser Speech) behalten Ihr Audio lokal – nichts wird an einen Server gesendet. ElevenLabs und Cartesia senden Audio zur Transkription an deren Server (unter Verwendung Ihres API-Keys) und bieten eine höhere Genauigkeit, insbesondere für Deutsch und andere Sprachen.
Verwendung:
- Klicken Sie auf das Mikrofonsymbol im Composer
- Sprechen Sie Ihre Nachricht
- Stoppen Sie, wenn Sie fertig sind
- Das Transkript erscheint im Nachrichtenfeld
- Bei Bedarf bearbeiten, dann senden
Ersteinrichtung: Wenn Sie zum ersten Mal ein On-Device-Sprachmodell verwenden, muss dieses heruntergeladen und vorbereitet werden. Der Composer zeigt den Fortschritt an ("Sprachmodell wird heruntergeladen... N%", dann "Vorbereiten"/"Laden"). Eine kurze Pause beim ersten Tippen auf das Mikrofon ist also normal.
Systemweite Diktierfunktion (macOS)
Pro-Abonnenten auf macOS können zusätzlich PrivateVoice installieren, eine separate Begleit-App, die einen globalen Push-to-Talk-Hotkey zum Diktieren in jeder Anwendung hinzufügt – nicht nur in Caiioo. Weitere Details finden Sie auf der Desktop-Download-Seite.
Siehe auch
- Datenschutz & Daten — Umgang mit Sprachdaten
- Plattform & Einrichtung — Verfügbarkeit von Desktop-App und PrivateVoice
- Einstellungen > Sprache — Konfigurieren Sie die Sprachoptionen für Ihr Setup
This guide is maintained by the Caiioo team using Slate, our built-in editor.