Ceci est une traduction automatique du document original en anglais. En cas de divergence entre cette traduction et la version originale anglaise, la version anglaise fera foi. Consulter la version originale en anglais

Voix : Parler et Écouter

Vous voulez que l'IA lise les réponses à haute voix ? Ou dicter des messages au lieu de les taper ? Caiioo propose l'entrée et la sortie vocales — toutes configurables, certaines s'exécutant localement sur votre appareil.

Paramètres vocaux avec options d'entrée et de sortie, bascule de lecture automatique et vitesse de lecture

Sortie Vocale (Synthèse Vocale)

Faites lire les réponses de l'IA à haute voix. Choisissez parmi :

Option	Type	Qualité	Configuration
Voix du Navigateur	Local	Basique	Gratuit, sans configuration
Kokoro	Local	Haute	Gratuit, s'exécute sur votre appareil
Gemini 3.1 Flash TTS	Cloud	Naturelle	Ajoutez la clé API OpenRouter
ElevenLabs	Cloud	Premium	Ajoutez votre clé API
Cartesia (Sonic 3.5)	Cloud	Premium	Ajoutez votre clé API
Resemble.ai	Cloud	Excellente (clonage de voix)	Ajoutez votre clé API

Taille de téléchargement de Kokoro : Le modèle Kokoro est disponible en deux variantes, et celle qui est téléchargée dépend de votre plateforme. macOS et iOS chargent le modèle plus petit quantifié en INT8 (~88 Mo), tandis que l'extension/navigateur utilise la version WebGPU en pleine précision, plus volumineuse (~330 Mo). Il s'agit d'un téléchargement unique.

Notes sur les plateformes :

iOS natif Kokoro (v0.9.720+) : S'exécute dans le processus hôte iOS via OnnxRuntime au lieu de WebView, corrigeant les plantages sur iPhone 13/14.
macOS Kokoro : Diffuse phrase par phrase (en moins d'une seconde après avoir appuyé sur lecture) via le processus d'assistance du bureau.
Gemini TTS (v0.9.723+) : Via OpenRouter — diffuse désormais phrase par phrase, de sorte que l'audio commence après la première phrase au lieu d'attendre la synthèse de l'intégralité de la réponse.
Cartesia (v0.9.723+) : Une seule clé API alimente à la fois Sonic 3.5 (sortie) et Ink (entrée). Il n'y a pas de voix par défaut — choisissez-en une dans Paramètres > Voix avant de l'activer.

Vitesse de lecture : Le curseur de vitesse (0,5×–2,0×) est appliqué par le fournisseur pour ElevenLabs (limité à 0,7–1,2×) et Cartesia (limité à 0,6–1,5×). Les voix du navigateur et Kokoro accélèrent localement ; Resemble.ai et Gemini n'ont pas de contrôle de vitesse et lisent toujours au débit normal.

Pour l'activer :

Allez dans Paramètres > Voix
Choisissez une option de synthèse vocale
Activez "Lecture automatique des réponses" si vous souhaitez que l'IA lise automatiquement
Ajustez la vitesse de lecture si vous le souhaitez

Si la lecture échoue : Les erreurs vocales s'affichent désormais sous forme de notification (toast) au lieu d'échouer silencieusement — ainsi, une clé API manquante ou invalide, ou une voix non compatible avec le modèle sélectionné (fréquent avec Resemble.ai et Cartesia), vous indique exactement ce qu'il faut corriger.

Local vs Cloud : Les voix du navigateur et Kokoro n'envoient jamais rien hors de votre appareil. Gemini, ElevenLabs, Cartesia et Resemble.ai envoient du texte à leurs serveurs (en utilisant vos clés API) pour générer l'audio. Consultez Privacy & Data pour plus de détails.

Les coûts vocaux (TTS + STT) sont cumulés sous voice_cost dans la conversation, correspondant au parcours ponctuel.

Entrée vocale (Saisie vocale)

Dictez vos messages au lieu de les taper. Cliquez sur l'icône microphone dans l'éditeur pour démarrer l'enregistrement. Caiioo transcrit vos paroles et les insère dans le champ de message.

Choisissez le mode de transcription :

Option	Type	Confidentialité	Configuration
Whisper (Navigateur)	Local	Totalement privé	GRATIS, s'exécute sur votre appareil
WhisperKit (iOS)	Local	Totalement privé	GRATIS, sur l'appareil
whisper.cpp & Moonshine (Android)	Local	Totalement privé	GRATIS, sur l'appareil
Browser Speech	Local	Privé	GRATIS, intégré
ElevenLabs Scribe	Cloud	Précis (idéal hors anglais)	Ajoutez votre clé API ElevenLabs
Cartesia Ink	Cloud	Précis, faible latence	Ajoutez votre clé API Cartesia

Les options locales gardent votre audio en local — rien n'est envoyé à un serveur. ElevenLabs et Cartesia envoient l'audio à leurs serveurs pour la transcription (via votre clé API) et offrent une meilleure précision, surtout pour les langues autres que l'anglais.

Pour l'utiliser :

Cliquez sur l'icône micro dans l'éditeur
Dites votre message
Arrêtez quand vous avez fini
La transcription apparaît dans le champ de message
Modifiez si besoin, puis envoyez

Première configuration : La première fois que vous utilisez un modèle vocal sur l'appareil, il doit être téléchargé. L'éditeur affiche la progression ("Téléchargement du modèle vocal… N%", puis "Préparation"/"Chargement"), une brève pause lors du premier clic est donc normale.

Dictée système (macOS)

Les abonnés Pro sur macOS peuvent également installer PrivateVoice, une application compagnon séparée qui ajoute un raccourci clavier global pour dicter dans n'importe quelle application — pas seulement Caiioo. Voir la page de téléchargement de bureau pour plus de détails.

Voir aussi

Confidentialité et données — Comment les données vocales sont traitées
Plateforme et configuration — Disponibilité de l'application de bureau et de PrivateVoice
Réglages > Voix — Configurez les options vocales pour votre installation

This guide is maintained by the Caiioo team using Slate, our built-in editor.