Esta é uma tradução automática do documento original em inglês. Em caso de conflito entre esta tradução e a versão original em inglês, a versão em inglês prevalecerá. Ler a versão original em inglês


Voz: Fale e Ouça

Quer que a IA leia as respostas em voz alta? Ou ditar mensagens em vez de digitar? O Caiioo oferece entrada e saída de voz — tudo configurável, com algumas opções rodando localmente no seu dispositivo.

Configurações de voz com opções de entrada e saída, alternância de leitura automática e velocidade de reprodução

Saída de Voz (Text-to-Speech)

Faça com que a IA leia as respostas em voz alta. Escolha entre:

Opção Tipo Qualidade Configuração
Vozes do Navegador Local Básica Grátis, sem configuração
Kokoro Local Alta Grátis, roda no seu dispositivo
Gemini 3.1 Flash TTS Nuvem Natural Adicione a chave de API do OpenRouter
ElevenLabs Nuvem Premium Adicione sua chave de API
Cartesia (Sonic 3.5) Nuvem Premium Adicione sua chave de API
Resemble.ai Nuvem Excelente (clonagem de voz) Adicione sua chave de API

Tamanho do download do Kokoro: O modelo Kokoro é fornecido em duas variantes, e o download depende da sua plataforma. macOS e iOS carregam o modelo menor com quantização INT8 (~88 MB), enquanto a extensão/navegador utiliza a compilação WebGPU de precisão total, que é maior (~330 MB). É um download único.

Notas da plataforma:

  • Kokoro nativo para iOS (v0.9.720+): Roda no processo host do iOS via OnnxRuntime em vez de WebView, corrigindo travamentos no iPhone 13/14.
  • macOS Kokoro: Transmite frase por frase (em cerca de 1s após pressionar o play) através do processo auxiliar de desktop.
  • Gemini TTS (v0.9.723+): Via OpenRouter — agora reproduz frase por frase, para que o áudio comece após a primeira sentença em vez de esperar que toda a resposta seja sintetizada.
  • Cartesia (v0.9.723+): Uma única chave de API alimenta tanto o Sonic 3.5 (saída) quanto o Ink (entrada). Não há voz padrão — escolha uma em Settings > Voice antes de ativá-lo.

Velocidade de reprodução: O controle deslizante de velocidade (0.5×–2.0×) é aplicado pelo provedor para ElevenLabs (limitado a 0.7–1.2×) e Cartesia (limitado a 0.6–1.5×). As vozes do navegador e o Kokoro aceleram localmente; Resemble.ai e Gemini não possuem controle de velocidade e sempre reproduzem na taxa normal.

Para ativar:

  1. Vá em Settings > Voice
  2. Escolha uma opção de text-to-speech
  3. Ative "Auto-read responses" se desejar que a IA leia automaticamente
  4. Ajuste a velocidade de reprodução, se preferir

Se a reprodução falhar: Erros de voz agora aparecem como uma notificação (toast) em vez de falharem silenciosamente — assim, uma chave de API ausente ou inválida, ou uma voz que não seja compatível com o modelo selecionado (comum com Resemble.ai e Cartesia), informa exatamente o que corrigir.

Local vs Nuvem: As vozes do navegador e o Kokoro nunca enviam nada para fora do seu dispositivo. Gemini, ElevenLabs, Cartesia e Resemble.ai enviam texto para seus servidores (usando suas chaves de API) para gerar o áudio. Consulte Privacy & Data para detalhes.

Custos de voz (TTS + STT) são acumulados como voice_cost na conversa, correspondendo ao caminho de execução única.

Entrada de Voz (Fala para Texto)

Dite suas mensagens em vez de digitar. Clique no ícone do microfone no compositor para começar a gravar. O Caiioo transcreve o que você diz e coloca no campo de mensagem.

Escolha como transcrever:

Opção Tipo Privacidade Configuração
Whisper (Navegador) Local Totalmente privada GRATIS, roda no seu dispositivo
WhisperKit (iOS) Local Totalmente privada GRATIS, no dispositivo
whisper.cpp & Moonshine (Android) Local Totalmente privada GRATIS, no dispositivo
Browser Speech Local Privada GRATIS, integrado
ElevenLabs Scribe Nuvem Precisa (ótima para não-inglês) Adicione sua chave API ElevenLabs
Cartesia Ink Nuvem Precisa, baixa latência Adicione sua chave API Cartesia

As opções locais (Whisper, WhisperKit, whisper.cpp, Moonshine, Browser Speech) mantêm seu áudio local — nada é enviado para nenhum servidor. ElevenLabs e Cartesia enviam áudio para seus servidores para transcrição (usando sua chave API) e oferecem maior precisão, especialmente para idiomas que não o inglês.

Para usar:

  1. Clique no ícone do microfone no compositor
  2. Fale sua mensagem
  3. Pare quando terminar
  4. A transcrição aparece no campo de mensagem
  5. Edite se necessário e envie

Configuração inicial: A primeira vez que você usa um modelo de fala no dispositivo, ele precisa baixar e carregar. O compositor mostra o progresso ("Baixando modelo de fala… N%", depois "Preparando"/"Carregando"), então uma breve pausa no seu primeiro toque no microfone é esperada, não um travamento.

Ditado em Todo o Sistema (macOS)

Assinantes Pro no macOS também podem instalar o PrivateVoice, um app complementar separado que adiciona uma tecla de atalho global para ditar em qualquer aplicativo — não apenas no Caiioo. Consulte a página de download para desktop para detalhes.

Veja Também


This guide is maintained by the Caiioo team using Slate, our built-in editor.