Esta es una traducción automática del documento original en inglés. En caso de cualquier discrepancia entre esta traducción y la versión original en inglés, prevalecerá la versión en inglés. Leer la versión original en inglés

Voz: Habla y escucha

¿Quieres que la IA lea las respuestas en voz alta? ¿O dictar mensajes en lugar de escribirlos? Caiioo ofrece entrada y salida de voz, todo configurable, y algunas opciones se ejecutan localmente en tu dispositivo.

Ajustes de voz con opciones de entrada y salida, interruptor de lectura automática y velocidad de reproducción

Salida de Voz (Texto a Voz)

Haga que la IA lea sus respuestas en voz alta. Elija entre:

Opción	Tipo	Calidad	Configuración
Voces del Navegador	Local	Básica	Gratis, sin configuración
Kokoro	Local	Alta	Gratis, se ejecuta en su dispositivo
Gemini 3.1 Flash TTS	Nube	Natural	Añada la API key de OpenRouter
ElevenLabs	Nube	Premium	Añada su API key
Cartesia (Sonic 3.5)	Nube	Premium	Añada su API key
Resemble.ai	Nube	Excelente (clonación de voz)	Añada su API key

Tamaño de descarga de Kokoro: El modelo Kokoro se distribuye en dos variantes, y la que se descarga depende de su plataforma. macOS e iOS cargan el modelo más pequeño cuantizado en INT8 (~88 MB), mientras que la extensión/navegador utiliza la compilación WebGPU de precisión completa más grande (~330 MB). Es una descarga única.

Notas de la plataforma:

Kokoro nativo de iOS (v0.9.720+): Se ejecuta en el proceso host de iOS a través de OnnxRuntime en lugar de WebView, solucionando los cierres inesperados en iPhone 13/14.
macOS Kokoro: Transmite frase por frase (en aproximadamente 1s tras presionar reproducir) a través del proceso de ayuda de escritorio.
Gemini TTS (v0.9.723+): A través de OpenRouter — ahora se reproduce frase por frase, por lo que el audio comienza después de la primera frase en lugar de esperar a que se sintetice toda la respuesta.
Cartesia (v0.9.723+): Una sola API key alimenta tanto a Sonic 3.5 (salida) como a Ink (entrada). No hay una voz predeterminada; elija una en Settings > Voice antes de activarlo.

Velocidad de reproducción: El control deslizante de velocidad (0.5×–2.0×) es aplicado por el proveedor para ElevenLabs (limitado a 0.7–1.2×) y Cartesia (limitado a 0.6–1.5×). Las voces del navegador y Kokoro aceleran localmente; Resemble.ai y Gemini no tienen control de velocidad y siempre se reproducen a ritmo normal.

Para activarlo:

Vaya a Settings > Voice
Elija una opción de texto a voz
Active "Auto-read responses" si desea que la IA lea automáticamente
Ajuste la velocidad de reproducción si lo desea

Si la reproducción falla: Los errores de voz ahora aparecen como una notificación emergente en lugar de fallar silenciosamente; por lo tanto, una API key faltante o inválida, o una voz que no es compatible con el modelo seleccionado (común con Resemble.ai y Cartesia), le indicará exactamente qué corregir.

Local vs Nube: Las voces del navegador y Kokoro nunca envían nada fuera de su dispositivo. Gemini, ElevenLabs, Cartesia y Resemble.ai envían texto a sus servidores (utilizando sus API keys) para generar el audio. Consulte Privacy & Data para más detalles.

Los costes de voz (TTS + STT) se acumulan como voice_cost en la conversación, coincidiendo con la ruta de un solo paso.

Entrada de voz (Voz a texto)

Dicta tus mensajes en lugar de escribirlos. Haz clic en el icono del micrófono en el editor para empezar a grabar. Caiioo transcribe lo que dices y lo coloca en el campo de mensaje.

Elige cómo se transcribe:

Opción	Tipo	Privacidad	Configuración
Whisper (Navegador)	Local	Totalmente privada	GRATIS, se ejecuta en tu dispositivo
WhisperKit (iOS)	Local	Totalmente privada	GRATIS, en el dispositivo
whisper.cpp y Moonshine (Android)	Local	Totalmente privada	GRATIS, en el dispositivo
Voz del navegador	Local	Privada	GRATIS, integrada
ElevenLabs Scribe	Nube	Precisa (ideal para idiomas distintos al inglés)	Añade tu clave API de ElevenLabs
Cartesia Ink	Nube	Precisa, baja latencia	Añade tu clave API de Cartesia

Las opciones locales (Whisper, WhisperKit, whisper.cpp, Moonshine, Voz del navegador) mantienen tu audio de forma local; nada se envía a ningún servidor. ElevenLabs y Cartesia envían el audio a sus servidores para la transcripción (usando tu clave API) y ofrecen una mayor precisión, especialmente para idiomas que no son inglés.

Para usarlo:

Haz clic en el icono del micrófono en el editor
Di tu mensaje
Detente cuando hayas terminado
La transcripción aparece en el campo de mensaje
Edita si es necesario y envía

Configuración inicial: La primera vez que uses un modelo de voz en el dispositivo, este debe descargarse y prepararse. El editor muestra el progreso ("Descargando modelo de voz... N%", luego "Preparando"/"Cargando"), por lo que es normal una breve pausa al tocar el micrófono por primera vez.

Dictado en todo el sistema (macOS)

Los suscriptores Pro en macOS también pueden instalar PrivateVoice, una aplicación complementaria independiente que añade una tecla de acceso rápido global para dictar en cualquier aplicación, no solo en Caiioo. Consulta la página de descarga de escritorio para más detalles.

Ver también

Privacidad y datos — Cómo se manejan los datos de voz
Plataforma y configuración — Disponibilidad de la aplicación de escritorio y PrivateVoice
Ajustes > Voz — Configura las opciones de voz para tu equipo

This guide is maintained by the Caiioo team using Slate, our built-in editor.