Ceci est une traduction automatique du document original en anglais. En cas de divergence entre cette traduction et la version originale anglaise, la version anglaise fera foi. Consulter la version originale en anglais


Voix : Parler et Écouter

Vous voulez que l'IA lise les réponses à haute voix ? Ou dicter des messages au lieu de les taper ? Caiioo propose l'entrée et la sortie vocales — toutes configurables, certaines s'exécutant localement sur votre appareil.

Paramètres vocaux avec options d'entrée et de sortie, bascule de lecture automatique et vitesse de lecture

Sortie Vocale (Synthèse Vocale)

Faites lire les réponses de l'IA à haute voix. Choisissez parmi :

Option Type Qualité Configuration
Voix du Navigateur Local Basique Gratuit, sans configuration
Kokoro Local Haute Gratuit, s'exécute sur votre appareil
Gemini 3.1 Flash TTS Cloud Naturelle Ajoutez la clé API OpenRouter
ElevenLabs Cloud Premium Ajoutez votre clé API
Cartesia (Sonic 3.5) Cloud Premium Ajoutez votre clé API
Resemble.ai Cloud Excellente (clonage de voix) Ajoutez votre clé API

Taille de téléchargement de Kokoro : Le modèle Kokoro est disponible en deux variantes, et celle qui est téléchargée dépend de votre plateforme. macOS et iOS chargent le modèle plus petit quantifié en INT8 (~88 Mo), tandis que l'extension/navigateur utilise la version WebGPU en pleine précision, plus volumineuse (~330 Mo). Il s'agit d'un téléchargement unique.

Notes sur les plateformes :

  • iOS natif Kokoro (v0.9.720+) : S'exécute dans le processus hôte iOS via OnnxRuntime au lieu de WebView, corrigeant les plantages sur iPhone 13/14.
  • macOS Kokoro : Diffuse phrase par phrase (en moins d'une seconde après avoir appuyé sur lecture) via le processus d'assistance du bureau.
  • Gemini TTS (v0.9.723+) : Via OpenRouter — diffuse désormais phrase par phrase, de sorte que l'audio commence après la première phrase au lieu d'attendre la synthèse de l'intégralité de la réponse.
  • Cartesia (v0.9.723+) : Une seule clé API alimente à la fois Sonic 3.5 (sortie) et Ink (entrée). Il n'y a pas de voix par défaut — choisissez-en une dans Paramètres > Voix avant de l'activer.

Vitesse de lecture : Le curseur de vitesse (0,5×–2,0×) est appliqué par le fournisseur pour ElevenLabs (limité à 0,7–1,2×) et Cartesia (limité à 0,6–1,5×). Les voix du navigateur et Kokoro accélèrent localement ; Resemble.ai et Gemini n'ont pas de contrôle de vitesse et lisent toujours au débit normal.

Pour l'activer :

  1. Allez dans Paramètres > Voix
  2. Choisissez une option de synthèse vocale
  3. Activez "Lecture automatique des réponses" si vous souhaitez que l'IA lise automatiquement
  4. Ajustez la vitesse de lecture si vous le souhaitez

Si la lecture échoue : Les erreurs vocales s'affichent désormais sous forme de notification (toast) au lieu d'échouer silencieusement — ainsi, une clé API manquante ou invalide, ou une voix non compatible avec le modèle sélectionné (fréquent avec Resemble.ai et Cartesia), vous indique exactement ce qu'il faut corriger.

Local vs Cloud : Les voix du navigateur et Kokoro n'envoient jamais rien hors de votre appareil. Gemini, ElevenLabs, Cartesia et Resemble.ai envoient du texte à leurs serveurs (en utilisant vos clés API) pour générer l'audio. Consultez Privacy & Data pour plus de détails.

Les coûts vocaux (TTS + STT) sont cumulés sous voice_cost dans la conversation, correspondant au parcours ponctuel.

Entrée vocale (Saisie vocale)

Dictez vos messages au lieu de les taper. Cliquez sur l'icône microphone dans l'éditeur pour démarrer l'enregistrement. Caiioo transcrit vos paroles et les insère dans le champ de message.

Choisissez le mode de transcription :

Option Type Confidentialité Configuration
Whisper (Navigateur) Local Totalement privé GRATIS, s'exécute sur votre appareil
WhisperKit (iOS) Local Totalement privé GRATIS, sur l'appareil
whisper.cpp & Moonshine (Android) Local Totalement privé GRATIS, sur l'appareil
Browser Speech Local Privé GRATIS, intégré
ElevenLabs Scribe Cloud Précis (idéal hors anglais) Ajoutez votre clé API ElevenLabs
Cartesia Ink Cloud Précis, faible latence Ajoutez votre clé API Cartesia

Les options locales gardent votre audio en local — rien n'est envoyé à un serveur. ElevenLabs et Cartesia envoient l'audio à leurs serveurs pour la transcription (via votre clé API) et offrent une meilleure précision, surtout pour les langues autres que l'anglais.

Pour l'utiliser :

  1. Cliquez sur l'icône micro dans l'éditeur
  2. Dites votre message
  3. Arrêtez quand vous avez fini
  4. La transcription apparaît dans le champ de message
  5. Modifiez si besoin, puis envoyez

Première configuration : La première fois que vous utilisez un modèle vocal sur l'appareil, il doit être téléchargé. L'éditeur affiche la progression ("Téléchargement du modèle vocal… N%", puis "Préparation"/"Chargement"), une brève pause lors du premier clic est donc normale.

Dictée système (macOS)

Les abonnés Pro sur macOS peuvent également installer PrivateVoice, une application compagnon séparée qui ajoute un raccourci clavier global pour dicter dans n'importe quelle application — pas seulement Caiioo. Voir la page de téléchargement de bureau pour plus de détails.

Voir aussi


This guide is maintained by the Caiioo team using Slate, our built-in editor.