Esta es una traducción automática del documento original en inglés. En caso de cualquier discrepancia entre esta traducción y la versión original en inglés, prevalecerá la versión en inglés. Leer la versión original en inglés


Voz: Habla y escucha

¿Quieres que la IA lea las respuestas en voz alta? ¿O dictar mensajes en lugar de escribirlos? Caiioo ofrece entrada y salida de voz, todo configurable, y algunas opciones se ejecutan localmente en tu dispositivo.

Ajustes de voz con opciones de entrada y salida, interruptor de lectura automática y velocidad de reproducción

Salida de Voz (Texto a Voz)

Haga que la IA lea sus respuestas en voz alta. Elija entre:

Opción Tipo Calidad Configuración
Voces del Navegador Local Básica Gratis, sin configuración
Kokoro Local Alta Gratis, se ejecuta en su dispositivo
Gemini 3.1 Flash TTS Nube Natural Añada la API key de OpenRouter
ElevenLabs Nube Premium Añada su API key
Cartesia (Sonic 3.5) Nube Premium Añada su API key
Resemble.ai Nube Excelente (clonación de voz) Añada su API key

Tamaño de descarga de Kokoro: El modelo Kokoro se distribuye en dos variantes, y la que se descarga depende de su plataforma. macOS e iOS cargan el modelo más pequeño cuantizado en INT8 (~88 MB), mientras que la extensión/navegador utiliza la compilación WebGPU de precisión completa más grande (~330 MB). Es una descarga única.

Notas de la plataforma:

  • Kokoro nativo de iOS (v0.9.720+): Se ejecuta en el proceso host de iOS a través de OnnxRuntime en lugar de WebView, solucionando los cierres inesperados en iPhone 13/14.
  • macOS Kokoro: Transmite frase por frase (en aproximadamente 1s tras presionar reproducir) a través del proceso de ayuda de escritorio.
  • Gemini TTS (v0.9.723+): A través de OpenRouter — ahora se reproduce frase por frase, por lo que el audio comienza después de la primera frase en lugar de esperar a que se sintetice toda la respuesta.
  • Cartesia (v0.9.723+): Una sola API key alimenta tanto a Sonic 3.5 (salida) como a Ink (entrada). No hay una voz predeterminada; elija una en Settings > Voice antes de activarlo.

Velocidad de reproducción: El control deslizante de velocidad (0.5×–2.0×) es aplicado por el proveedor para ElevenLabs (limitado a 0.7–1.2×) y Cartesia (limitado a 0.6–1.5×). Las voces del navegador y Kokoro aceleran localmente; Resemble.ai y Gemini no tienen control de velocidad y siempre se reproducen a ritmo normal.

Para activarlo:

  1. Vaya a Settings > Voice
  2. Elija una opción de texto a voz
  3. Active "Auto-read responses" si desea que la IA lea automáticamente
  4. Ajuste la velocidad de reproducción si lo desea

Si la reproducción falla: Los errores de voz ahora aparecen como una notificación emergente en lugar de fallar silenciosamente; por lo tanto, una API key faltante o inválida, o una voz que no es compatible con el modelo seleccionado (común con Resemble.ai y Cartesia), le indicará exactamente qué corregir.

Local vs Nube: Las voces del navegador y Kokoro nunca envían nada fuera de su dispositivo. Gemini, ElevenLabs, Cartesia y Resemble.ai envían texto a sus servidores (utilizando sus API keys) para generar el audio. Consulte Privacy & Data para más detalles.

Los costes de voz (TTS + STT) se acumulan como voice_cost en la conversación, coincidiendo con la ruta de un solo paso.

Entrada de voz (Voz a texto)

Dicta tus mensajes en lugar de escribirlos. Haz clic en el icono del micrófono en el editor para empezar a grabar. Caiioo transcribe lo que dices y lo coloca en el campo de mensaje.

Elige cómo se transcribe:

Opción Tipo Privacidad Configuración
Whisper (Navegador) Local Totalmente privada GRATIS, se ejecuta en tu dispositivo
WhisperKit (iOS) Local Totalmente privada GRATIS, en el dispositivo
whisper.cpp y Moonshine (Android) Local Totalmente privada GRATIS, en el dispositivo
Voz del navegador Local Privada GRATIS, integrada
ElevenLabs Scribe Nube Precisa (ideal para idiomas distintos al inglés) Añade tu clave API de ElevenLabs
Cartesia Ink Nube Precisa, baja latencia Añade tu clave API de Cartesia

Las opciones locales (Whisper, WhisperKit, whisper.cpp, Moonshine, Voz del navegador) mantienen tu audio de forma local; nada se envía a ningún servidor. ElevenLabs y Cartesia envían el audio a sus servidores para la transcripción (usando tu clave API) y ofrecen una mayor precisión, especialmente para idiomas que no son inglés.

Para usarlo:

  1. Haz clic en el icono del micrófono en el editor
  2. Di tu mensaje
  3. Detente cuando hayas terminado
  4. La transcripción aparece en el campo de mensaje
  5. Edita si es necesario y envía

Configuración inicial: La primera vez que uses un modelo de voz en el dispositivo, este debe descargarse y prepararse. El editor muestra el progreso ("Descargando modelo de voz... N%", luego "Preparando"/"Cargando"), por lo que es normal una breve pausa al tocar el micrófono por primera vez.

Dictado en todo el sistema (macOS)

Los suscriptores Pro en macOS también pueden instalar PrivateVoice, una aplicación complementaria independiente que añade una tecla de acceso rápido global para dictar en cualquier aplicación, no solo en Caiioo. Consulta la página de descarga de escritorio para más detalles.

Ver también


This guide is maintained by the Caiioo team using Slate, our built-in editor.