Questa è una traduzione automatica del documento originale in inglese. In caso di discrepanze tra la presente traduzione e la versione originale in inglese, prevarrà la versione inglese. Leggi la versione originale in inglese

Voce: Parla e Ascolta

Vuoi che l'IA legga le risposte ad alta voce? O dettare messaggi invece di digitarli? Caiioo offre input e output vocale: tutto configurabile, in parte eseguito localmente sul tuo dispositivo.

Impostazioni vocali con opzioni di input e output, interruttore di lettura automatica e velocità di riproduzione

Output Vocale (Text-to-Speech)

Fai in modo che l'AI legga le sue risposte ad alta voce. Scegli tra:

Opzione	Tipo	Qualità	Configurazione
Voci del Browser	Locale	Base	Gratuito, nessuna configurazione
Kokoro	Locale	Alta	Gratuito, viene eseguito sul tuo dispositivo
Gemini 3.1 Flash TTS	Cloud	Naturale	Aggiungi la API key di OpenRouter
ElevenLabs	Cloud	Premium	Aggiungi la tua API key
Cartesia (Sonic 3.5)	Cloud	Premium	Aggiungi la tua API key
Resemble.ai	Cloud	Eccellente (clonazione vocale)	Aggiungi la tua API key

Dimensioni del download di Kokoro: Il modello Kokoro viene fornito in due varianti, e quella scaricata dipende dalla tua piattaforma. macOS e iOS caricano il modello più piccolo con quantizzazione INT8 (~88 MB), mentre l'estensione/browser utilizza la build WebGPU a precisione intera più grande (~330 MB). Si tratta di un download una tantum.

Note sulla piattaforma:

Kokoro nativo su iOS (v0.9.720+): Viene eseguito nel processo host di iOS tramite OnnxRuntime invece di WebView, risolvendo i crash su iPhone 13/14.
Kokoro su macOS: Riproduce in streaming frase per frase (entro circa 1 secondo dalla pressione di play) attraverso il processo helper desktop.
Gemini TTS (v0.9.723+): Tramite OpenRouter — ora riproduce frase per frase, quindi l'audio inizia dopo la prima frase invece di attendere la sintesi dell'intera risposta.
Cartesia (v0.9.723+): Una singola API key alimenta sia Sonic 3.5 (output) che Ink (input). Non c'è una voce predefinita: scegline una in Impostazioni > Voce prima di abilitarla.

Velocità di riproduzione: Lo slider della velocità (0.5×–2.0×) viene applicato dal provider per ElevenLabs (limitato a 0.7–1.2×) e Cartesia (limitato a 0.6–1.5×). Le voci del browser e Kokoro accelerano localmente; Resemble.ai e Gemini non hanno il controllo della velocità e riproducono sempre a velocità normale.

Per abilitarlo:

Vai in Impostazioni > Voce
Scegli un'opzione di sintesi vocale
Attiva "Leggi automaticamente le risposte" se desideri che l'AI legga in automatico
Regola la velocità di riproduzione se preferisci

Se la riproduzione fallisce: Gli errori vocali ora appaiono come una notifica toast invece di fallire silenziosamente — quindi una API key mancante o non valida, o una voce non compatibile con il modello selezionato (comune con Resemble.ai e Cartesia), ti indicherà esattamente cosa correggere.

Locale vs Cloud: Le voci del browser e Kokoro non inviano mai nulla al di fuori del tuo dispositivo. Gemini, ElevenLabs, Cartesia e Resemble.ai inviano il testo ai loro server (utilizzando le tue API key) per generare l'audio. Consulta Privacy & Data per i dettagli.

I costi della voce (TTS + STT) vengono raggruppati come voice_cost nella conversazione, seguendo il percorso one-shot.

Input Vocale (Speech-to-Text)

Ditta i tuoi messaggi invece di digitarli. Clicca sull'icona del microfono nel composer per avviare la registrazione. Caiioo trascrive ciò che dici e lo inserisce nel campo del messaggio.

Scegli come trascrivere:

Opzione	Tipo	Privacy	Configurazione
Whisper (Browser)	Locale	Completamente privata	GRATIS, gira sul tuo dispositivo
WhisperKit (iOS)	Locale	Completamente privata	GRATIS, sul dispositivo
whisper.cpp & Moonshine (Android)	Locale	Completamente privata	GRATIS, sul dispositivo
Browser Speech	Locale	Privata	GRATIS, integrato
ElevenLabs Scribe	Cloud	Accurata (ottima per lingue non inglesi)	Aggiungi la tua chiave API ElevenLabs
Cartesia Ink	Cloud	Accurata, bassa latenza	Aggiungi la tua chiave API Cartesia

Le opzioni locali (Whisper, WhisperKit, whisper.cpp, Moonshine, Browser Speech) mantengono l'audio in locale — nulla viene inviato ai server. ElevenLabs e Cartesia inviano l'audio ai loro server per la trascrizione (usando la tua chiave API) e offrono una precisione maggiore, specialmente per l'italiano e altre lingue.

Per usarlo:

Clicca sull'icona del microfono nel composer
Pronuncia il tuo messaggio
Ferma quando hai finito
La trascrizione appare nel campo del messaggio
Modifica se necessario, poi invia

Prima configurazione: La prima volta che usi un modello vocale sul dispositivo, questo deve essere scaricato e preparato. Il composer mostrerà l'avanzamento ("Download modello vocale… N%", poi "Preparazione"/"Caricamento"), quindi una breve pausa al primo tocco del microfono è normale.

Dettatura di Sistema (macOS)

Gli abbonati Pro su macOS possono anche installare PrivateVoice, un'app complementare separata che aggiunge una scorciatoia globale "premi per parlare" per dettare in qualsiasi applicazione, non solo in Caiioo. Consulta la pagina di download desktop per i dettagli.

Vedi Anche

Privacy e Dati — Come vengono gestiti i dati vocali
Piattaforma e Configurazione — Disponibilità dell'app desktop e di PrivateVoice
Impostazioni > Voce — Configura le opzioni vocali per la tua configurazione

This guide is maintained by the Caiioo team using Slate, our built-in editor.