Esta é uma tradução automática do documento original em inglês. Em caso de conflito entre esta tradução e a versão original em inglês, a versão em inglês prevalecerá. Ler a versão original em inglês

Voz: Fale e Ouça

Quer que a IA leia as respostas em voz alta? Ou ditar mensagens em vez de digitar? O Caiioo oferece entrada e saída de voz — tudo configurável, com algumas opções rodando localmente no seu dispositivo.

Configurações de voz com opções de entrada e saída, alternância de leitura automática e velocidade de reprodução

Saída de Voz (Text-to-Speech)

Faça com que a IA leia as respostas em voz alta. Escolha entre:

Opção	Tipo	Qualidade	Configuração
Vozes do Navegador	Local	Básica	Grátis, sem configuração
Kokoro	Local	Alta	Grátis, roda no seu dispositivo
Gemini 3.1 Flash TTS	Nuvem	Natural	Adicione a chave de API do OpenRouter
ElevenLabs	Nuvem	Premium	Adicione sua chave de API
Cartesia (Sonic 3.5)	Nuvem	Premium	Adicione sua chave de API
Resemble.ai	Nuvem	Excelente (clonagem de voz)	Adicione sua chave de API

Tamanho do download do Kokoro: O modelo Kokoro é fornecido em duas variantes, e o download depende da sua plataforma. macOS e iOS carregam o modelo menor com quantização INT8 (~88 MB), enquanto a extensão/navegador utiliza a compilação WebGPU de precisão total, que é maior (~330 MB). É um download único.

Notas da plataforma:

Kokoro nativo para iOS (v0.9.720+): Roda no processo host do iOS via OnnxRuntime em vez de WebView, corrigindo travamentos no iPhone 13/14.
macOS Kokoro: Transmite frase por frase (em cerca de 1s após pressionar o play) através do processo auxiliar de desktop.
Gemini TTS (v0.9.723+): Via OpenRouter — agora reproduz frase por frase, para que o áudio comece após a primeira sentença em vez de esperar que toda a resposta seja sintetizada.
Cartesia (v0.9.723+): Uma única chave de API alimenta tanto o Sonic 3.5 (saída) quanto o Ink (entrada). Não há voz padrão — escolha uma em Settings > Voice antes de ativá-lo.

Velocidade de reprodução: O controle deslizante de velocidade (0.5×–2.0×) é aplicado pelo provedor para ElevenLabs (limitado a 0.7–1.2×) e Cartesia (limitado a 0.6–1.5×). As vozes do navegador e o Kokoro aceleram localmente; Resemble.ai e Gemini não possuem controle de velocidade e sempre reproduzem na taxa normal.

Para ativar:

Vá em Settings > Voice
Escolha uma opção de text-to-speech
Ative "Auto-read responses" se desejar que a IA leia automaticamente
Ajuste a velocidade de reprodução, se preferir

Se a reprodução falhar: Erros de voz agora aparecem como uma notificação (toast) em vez de falharem silenciosamente — assim, uma chave de API ausente ou inválida, ou uma voz que não seja compatível com o modelo selecionado (comum com Resemble.ai e Cartesia), informa exatamente o que corrigir.

Local vs Nuvem: As vozes do navegador e o Kokoro nunca enviam nada para fora do seu dispositivo. Gemini, ElevenLabs, Cartesia e Resemble.ai enviam texto para seus servidores (usando suas chaves de API) para gerar o áudio. Consulte Privacy & Data para detalhes.

Custos de voz (TTS + STT) são acumulados como voice_cost na conversa, correspondendo ao caminho de execução única.

Entrada de Voz (Fala para Texto)

Dite suas mensagens em vez de digitar. Clique no ícone do microfone no compositor para começar a gravar. O Caiioo transcreve o que você diz e coloca no campo de mensagem.

Escolha como transcrever:

Opção	Tipo	Privacidade	Configuração
Whisper (Navegador)	Local	Totalmente privada	GRATIS, roda no seu dispositivo
WhisperKit (iOS)	Local	Totalmente privada	GRATIS, no dispositivo
whisper.cpp & Moonshine (Android)	Local	Totalmente privada	GRATIS, no dispositivo
Browser Speech	Local	Privada	GRATIS, integrado
ElevenLabs Scribe	Nuvem	Precisa (ótima para não-inglês)	Adicione sua chave API ElevenLabs
Cartesia Ink	Nuvem	Precisa, baixa latência	Adicione sua chave API Cartesia

As opções locais (Whisper, WhisperKit, whisper.cpp, Moonshine, Browser Speech) mantêm seu áudio local — nada é enviado para nenhum servidor. ElevenLabs e Cartesia enviam áudio para seus servidores para transcrição (usando sua chave API) e oferecem maior precisão, especialmente para idiomas que não o inglês.

Para usar:

Clique no ícone do microfone no compositor
Fale sua mensagem
Pare quando terminar
A transcrição aparece no campo de mensagem
Edite se necessário e envie

Configuração inicial: A primeira vez que você usa um modelo de fala no dispositivo, ele precisa baixar e carregar. O compositor mostra o progresso ("Baixando modelo de fala… N%", depois "Preparando"/"Carregando"), então uma breve pausa no seu primeiro toque no microfone é esperada, não um travamento.

Ditado em Todo o Sistema (macOS)

Assinantes Pro no macOS também podem instalar o PrivateVoice, um app complementar separado que adiciona uma tecla de atalho global para ditar em qualquer aplicativo — não apenas no Caiioo. Consulte a página de download para desktop para detalhes.

Veja Também

Privacidade e Dados — Como os dados de voz são tratados
Plataforma e Configuração — Disponibilidade do app de desktop e PrivateVoice
Configurações > Voz — Configure as opções de voz para sua instalação

This guide is maintained by the Caiioo team using Slate, our built-in editor.