Esta é uma tradução automática do documento original em inglês. Em caso de conflito entre esta tradução e a versão original em inglês, a versão em inglês prevalecerá. Ler a versão original em inglês
Voz: Fale e Ouça
Quer que a IA leia as respostas em voz alta? Ou ditar mensagens em vez de digitar? O Caiioo oferece entrada e saída de voz — tudo configurável, com algumas opções rodando localmente no seu dispositivo.

Saída de Voz (Text-to-Speech)
Faça com que a IA leia as respostas em voz alta. Escolha entre:
| Opção | Tipo | Qualidade | Configuração |
|---|---|---|---|
| Vozes do Navegador | Local | Básica | Grátis, sem configuração |
| Kokoro | Local | Alta | Grátis, roda no seu dispositivo |
| Gemini 3.1 Flash TTS | Nuvem | Natural | Adicione a chave de API do OpenRouter |
| ElevenLabs | Nuvem | Premium | Adicione sua chave de API |
| Cartesia (Sonic 3.5) | Nuvem | Premium | Adicione sua chave de API |
| Resemble.ai | Nuvem | Excelente (clonagem de voz) | Adicione sua chave de API |
Tamanho do download do Kokoro: O modelo Kokoro é fornecido em duas variantes, e o download depende da sua plataforma. macOS e iOS carregam o modelo menor com quantização INT8 (~88 MB), enquanto a extensão/navegador utiliza a compilação WebGPU de precisão total, que é maior (~330 MB). É um download único.
Notas da plataforma:
- Kokoro nativo para iOS (v0.9.720+): Roda no processo host do iOS via OnnxRuntime em vez de WebView, corrigindo travamentos no iPhone 13/14.
- macOS Kokoro: Transmite frase por frase (em cerca de 1s após pressionar o play) através do processo auxiliar de desktop.
- Gemini TTS (v0.9.723+): Via OpenRouter — agora reproduz frase por frase, para que o áudio comece após a primeira sentença em vez de esperar que toda a resposta seja sintetizada.
- Cartesia (v0.9.723+): Uma única chave de API alimenta tanto o Sonic 3.5 (saída) quanto o Ink (entrada). Não há voz padrão — escolha uma em Settings > Voice antes de ativá-lo.
Velocidade de reprodução: O controle deslizante de velocidade (0.5×–2.0×) é aplicado pelo provedor para ElevenLabs (limitado a 0.7–1.2×) e Cartesia (limitado a 0.6–1.5×). As vozes do navegador e o Kokoro aceleram localmente; Resemble.ai e Gemini não possuem controle de velocidade e sempre reproduzem na taxa normal.
Para ativar:
- Vá em Settings > Voice
- Escolha uma opção de text-to-speech
- Ative "Auto-read responses" se desejar que a IA leia automaticamente
- Ajuste a velocidade de reprodução, se preferir
Se a reprodução falhar: Erros de voz agora aparecem como uma notificação (toast) em vez de falharem silenciosamente — assim, uma chave de API ausente ou inválida, ou uma voz que não seja compatível com o modelo selecionado (comum com Resemble.ai e Cartesia), informa exatamente o que corrigir.
Local vs Nuvem: As vozes do navegador e o Kokoro nunca enviam nada para fora do seu dispositivo. Gemini, ElevenLabs, Cartesia e Resemble.ai enviam texto para seus servidores (usando suas chaves de API) para gerar o áudio. Consulte Privacy & Data para detalhes.
Custos de voz (TTS + STT) são acumulados como voice_cost na conversa, correspondendo ao caminho de execução única.
Entrada de Voz (Fala para Texto)
Dite suas mensagens em vez de digitar. Clique no ícone do microfone no compositor para começar a gravar. O Caiioo transcreve o que você diz e coloca no campo de mensagem.
Escolha como transcrever:
| Opção | Tipo | Privacidade | Configuração |
|---|---|---|---|
| Whisper (Navegador) | Local | Totalmente privada | GRATIS, roda no seu dispositivo |
| WhisperKit (iOS) | Local | Totalmente privada | GRATIS, no dispositivo |
| whisper.cpp & Moonshine (Android) | Local | Totalmente privada | GRATIS, no dispositivo |
| Browser Speech | Local | Privada | GRATIS, integrado |
| ElevenLabs Scribe | Nuvem | Precisa (ótima para não-inglês) | Adicione sua chave API ElevenLabs |
| Cartesia Ink | Nuvem | Precisa, baixa latência | Adicione sua chave API Cartesia |
As opções locais (Whisper, WhisperKit, whisper.cpp, Moonshine, Browser Speech) mantêm seu áudio local — nada é enviado para nenhum servidor. ElevenLabs e Cartesia enviam áudio para seus servidores para transcrição (usando sua chave API) e oferecem maior precisão, especialmente para idiomas que não o inglês.
Para usar:
- Clique no ícone do microfone no compositor
- Fale sua mensagem
- Pare quando terminar
- A transcrição aparece no campo de mensagem
- Edite se necessário e envie
Configuração inicial: A primeira vez que você usa um modelo de fala no dispositivo, ele precisa baixar e carregar. O compositor mostra o progresso ("Baixando modelo de fala… N%", depois "Preparando"/"Carregando"), então uma breve pausa no seu primeiro toque no microfone é esperada, não um travamento.
Ditado em Todo o Sistema (macOS)
Assinantes Pro no macOS também podem instalar o PrivateVoice, um app complementar separado que adiciona uma tecla de atalho global para ditar em qualquer aplicativo — não apenas no Caiioo. Consulte a página de download para desktop para detalhes.
Veja Também
- Privacidade e Dados — Como os dados de voz são tratados
- Plataforma e Configuração — Disponibilidade do app de desktop e PrivateVoice
- Configurações > Voz — Configure as opções de voz para sua instalação
This guide is maintained by the Caiioo team using Slate, our built-in editor.