Questa è una traduzione automatica del documento originale in inglese. In caso di discrepanze tra la presente traduzione e la versione originale in inglese, prevarrà la versione inglese. Leggi la versione originale in inglese
Voce: Parla e Ascolta
Vuoi che l'IA legga le risposte ad alta voce? O dettare messaggi invece di digitarli? Caiioo offre input e output vocale: tutto configurabile, in parte eseguito localmente sul tuo dispositivo.

Output Vocale (Text-to-Speech)
Fai in modo che l'AI legga le sue risposte ad alta voce. Scegli tra:
| Opzione | Tipo | Qualità | Configurazione |
|---|---|---|---|
| Voci del Browser | Locale | Base | Gratuito, nessuna configurazione |
| Kokoro | Locale | Alta | Gratuito, viene eseguito sul tuo dispositivo |
| Gemini 3.1 Flash TTS | Cloud | Naturale | Aggiungi la API key di OpenRouter |
| ElevenLabs | Cloud | Premium | Aggiungi la tua API key |
| Cartesia (Sonic 3.5) | Cloud | Premium | Aggiungi la tua API key |
| Resemble.ai | Cloud | Eccellente (clonazione vocale) | Aggiungi la tua API key |
Dimensioni del download di Kokoro: Il modello Kokoro viene fornito in due varianti, e quella scaricata dipende dalla tua piattaforma. macOS e iOS caricano il modello più piccolo con quantizzazione INT8 (~88 MB), mentre l'estensione/browser utilizza la build WebGPU a precisione intera più grande (~330 MB). Si tratta di un download una tantum.
Note sulla piattaforma:
- Kokoro nativo su iOS (v0.9.720+): Viene eseguito nel processo host di iOS tramite OnnxRuntime invece di WebView, risolvendo i crash su iPhone 13/14.
- Kokoro su macOS: Riproduce in streaming frase per frase (entro circa 1 secondo dalla pressione di play) attraverso il processo helper desktop.
- Gemini TTS (v0.9.723+): Tramite OpenRouter — ora riproduce frase per frase, quindi l'audio inizia dopo la prima frase invece di attendere la sintesi dell'intera risposta.
- Cartesia (v0.9.723+): Una singola API key alimenta sia Sonic 3.5 (output) che Ink (input). Non c'è una voce predefinita: scegline una in Impostazioni > Voce prima di abilitarla.
Velocità di riproduzione: Lo slider della velocità (0.5×–2.0×) viene applicato dal provider per ElevenLabs (limitato a 0.7–1.2×) e Cartesia (limitato a 0.6–1.5×). Le voci del browser e Kokoro accelerano localmente; Resemble.ai e Gemini non hanno il controllo della velocità e riproducono sempre a velocità normale.
Per abilitarlo:
- Vai in Impostazioni > Voce
- Scegli un'opzione di sintesi vocale
- Attiva "Leggi automaticamente le risposte" se desideri che l'AI legga in automatico
- Regola la velocità di riproduzione se preferisci
Se la riproduzione fallisce: Gli errori vocali ora appaiono come una notifica toast invece di fallire silenziosamente — quindi una API key mancante o non valida, o una voce non compatibile con il modello selezionato (comune con Resemble.ai e Cartesia), ti indicherà esattamente cosa correggere.
Locale vs Cloud: Le voci del browser e Kokoro non inviano mai nulla al di fuori del tuo dispositivo. Gemini, ElevenLabs, Cartesia e Resemble.ai inviano il testo ai loro server (utilizzando le tue API key) per generare l'audio. Consulta Privacy & Data per i dettagli.
I costi della voce (TTS + STT) vengono raggruppati come voice_cost nella conversazione, seguendo il percorso one-shot.
Input Vocale (Speech-to-Text)
Ditta i tuoi messaggi invece di digitarli. Clicca sull'icona del microfono nel composer per avviare la registrazione. Caiioo trascrive ciò che dici e lo inserisce nel campo del messaggio.
Scegli come trascrivere:
| Opzione | Tipo | Privacy | Configurazione |
|---|---|---|---|
| Whisper (Browser) | Locale | Completamente privata | GRATIS, gira sul tuo dispositivo |
| WhisperKit (iOS) | Locale | Completamente privata | GRATIS, sul dispositivo |
| whisper.cpp & Moonshine (Android) | Locale | Completamente privata | GRATIS, sul dispositivo |
| Browser Speech | Locale | Privata | GRATIS, integrato |
| ElevenLabs Scribe | Cloud | Accurata (ottima per lingue non inglesi) | Aggiungi la tua chiave API ElevenLabs |
| Cartesia Ink | Cloud | Accurata, bassa latenza | Aggiungi la tua chiave API Cartesia |
Le opzioni locali (Whisper, WhisperKit, whisper.cpp, Moonshine, Browser Speech) mantengono l'audio in locale — nulla viene inviato ai server. ElevenLabs e Cartesia inviano l'audio ai loro server per la trascrizione (usando la tua chiave API) e offrono una precisione maggiore, specialmente per l'italiano e altre lingue.
Per usarlo:
- Clicca sull'icona del microfono nel composer
- Pronuncia il tuo messaggio
- Ferma quando hai finito
- La trascrizione appare nel campo del messaggio
- Modifica se necessario, poi invia
Prima configurazione: La prima volta che usi un modello vocale sul dispositivo, questo deve essere scaricato e preparato. Il composer mostrerà l'avanzamento ("Download modello vocale… N%", poi "Preparazione"/"Caricamento"), quindi una breve pausa al primo tocco del microfono è normale.
Dettatura di Sistema (macOS)
Gli abbonati Pro su macOS possono anche installare PrivateVoice, un'app complementare separata che aggiunge una scorciatoia globale "premi per parlare" per dettare in qualsiasi applicazione, non solo in Caiioo. Consulta la pagina di download desktop per i dettagli.
Vedi Anche
- Privacy e Dati — Come vengono gestiti i dati vocali
- Piattaforma e Configurazione — Disponibilità dell'app desktop e di PrivateVoice
- Impostazioni > Voce — Configura le opzioni vocali per la tua configurazione
This guide is maintained by the Caiioo team using Slate, our built-in editor.