Ceci est une traduction automatique du document original en anglais. En cas de divergence entre cette traduction et la version originale anglaise, la version anglaise fera foi. Consulter la version originale en anglais
Voix : Parler et Écouter
Vous voulez que l'IA lise les réponses à haute voix ? Ou dicter des messages au lieu de les taper ? Caiioo propose l'entrée et la sortie vocales — toutes configurables, certaines s'exécutant localement sur votre appareil.

Sortie Vocale (Synthèse Vocale)
Faites lire les réponses de l'IA à haute voix. Choisissez parmi :
| Option | Type | Qualité | Configuration |
|---|---|---|---|
| Voix du Navigateur | Local | Basique | Gratuit, sans configuration |
| Kokoro | Local | Haute | Gratuit, s'exécute sur votre appareil |
| Gemini 3.1 Flash TTS | Cloud | Naturelle | Ajoutez la clé API OpenRouter |
| ElevenLabs | Cloud | Premium | Ajoutez votre clé API |
| Cartesia (Sonic 3.5) | Cloud | Premium | Ajoutez votre clé API |
| Resemble.ai | Cloud | Excellente (clonage de voix) | Ajoutez votre clé API |
Taille de téléchargement de Kokoro : Le modèle Kokoro est disponible en deux variantes, et celle qui est téléchargée dépend de votre plateforme. macOS et iOS chargent le modèle plus petit quantifié en INT8 (~88 Mo), tandis que l'extension/navigateur utilise la version WebGPU en pleine précision, plus volumineuse (~330 Mo). Il s'agit d'un téléchargement unique.
Notes sur les plateformes :
- iOS natif Kokoro (v0.9.720+) : S'exécute dans le processus hôte iOS via OnnxRuntime au lieu de WebView, corrigeant les plantages sur iPhone 13/14.
- macOS Kokoro : Diffuse phrase par phrase (en moins d'une seconde après avoir appuyé sur lecture) via le processus d'assistance du bureau.
- Gemini TTS (v0.9.723+) : Via OpenRouter — diffuse désormais phrase par phrase, de sorte que l'audio commence après la première phrase au lieu d'attendre la synthèse de l'intégralité de la réponse.
- Cartesia (v0.9.723+) : Une seule clé API alimente à la fois Sonic 3.5 (sortie) et Ink (entrée). Il n'y a pas de voix par défaut — choisissez-en une dans Paramètres > Voix avant de l'activer.
Vitesse de lecture : Le curseur de vitesse (0,5×–2,0×) est appliqué par le fournisseur pour ElevenLabs (limité à 0,7–1,2×) et Cartesia (limité à 0,6–1,5×). Les voix du navigateur et Kokoro accélèrent localement ; Resemble.ai et Gemini n'ont pas de contrôle de vitesse et lisent toujours au débit normal.
Pour l'activer :
- Allez dans Paramètres > Voix
- Choisissez une option de synthèse vocale
- Activez "Lecture automatique des réponses" si vous souhaitez que l'IA lise automatiquement
- Ajustez la vitesse de lecture si vous le souhaitez
Si la lecture échoue : Les erreurs vocales s'affichent désormais sous forme de notification (toast) au lieu d'échouer silencieusement — ainsi, une clé API manquante ou invalide, ou une voix non compatible avec le modèle sélectionné (fréquent avec Resemble.ai et Cartesia), vous indique exactement ce qu'il faut corriger.
Local vs Cloud : Les voix du navigateur et Kokoro n'envoient jamais rien hors de votre appareil. Gemini, ElevenLabs, Cartesia et Resemble.ai envoient du texte à leurs serveurs (en utilisant vos clés API) pour générer l'audio. Consultez Privacy & Data pour plus de détails.
Les coûts vocaux (TTS + STT) sont cumulés sous voice_cost dans la conversation, correspondant au parcours ponctuel.
Entrée vocale (Saisie vocale)
Dictez vos messages au lieu de les taper. Cliquez sur l'icône microphone dans l'éditeur pour démarrer l'enregistrement. Caiioo transcrit vos paroles et les insère dans le champ de message.
Choisissez le mode de transcription :
| Option | Type | Confidentialité | Configuration |
|---|---|---|---|
| Whisper (Navigateur) | Local | Totalement privé | GRATIS, s'exécute sur votre appareil |
| WhisperKit (iOS) | Local | Totalement privé | GRATIS, sur l'appareil |
| whisper.cpp & Moonshine (Android) | Local | Totalement privé | GRATIS, sur l'appareil |
| Browser Speech | Local | Privé | GRATIS, intégré |
| ElevenLabs Scribe | Cloud | Précis (idéal hors anglais) | Ajoutez votre clé API ElevenLabs |
| Cartesia Ink | Cloud | Précis, faible latence | Ajoutez votre clé API Cartesia |
Les options locales gardent votre audio en local — rien n'est envoyé à un serveur. ElevenLabs et Cartesia envoient l'audio à leurs serveurs pour la transcription (via votre clé API) et offrent une meilleure précision, surtout pour les langues autres que l'anglais.
Pour l'utiliser :
- Cliquez sur l'icône micro dans l'éditeur
- Dites votre message
- Arrêtez quand vous avez fini
- La transcription apparaît dans le champ de message
- Modifiez si besoin, puis envoyez
Première configuration : La première fois que vous utilisez un modèle vocal sur l'appareil, il doit être téléchargé. L'éditeur affiche la progression ("Téléchargement du modèle vocal… N%", puis "Préparation"/"Chargement"), une brève pause lors du premier clic est donc normale.
Dictée système (macOS)
Les abonnés Pro sur macOS peuvent également installer PrivateVoice, une application compagnon séparée qui ajoute un raccourci clavier global pour dicter dans n'importe quelle application — pas seulement Caiioo. Voir la page de téléchargement de bureau pour plus de détails.
Voir aussi
- Confidentialité et données — Comment les données vocales sont traitées
- Plateforme et configuration — Disponibilité de l'application de bureau et de PrivateVoice
- Réglages > Voix — Configurez les options vocales pour votre installation
This guide is maintained by the Caiioo team using Slate, our built-in editor.