Questa è una traduzione automatica del documento originale in inglese. In caso di discrepanze tra la presente traduzione e la versione originale in inglese, prevarrà la versione inglese. Leggi la versione originale in inglese


Voce: Parla e Ascolta

Vuoi che l'IA legga le risposte ad alta voce? O dettare messaggi invece di digitarli? Caiioo offre input e output vocale: tutto configurabile, in parte eseguito localmente sul tuo dispositivo.

Impostazioni vocali con opzioni di input e output, interruttore di lettura automatica e velocità di riproduzione

Output Vocale (Text-to-Speech)

Fai in modo che l'AI legga le sue risposte ad alta voce. Scegli tra:

Opzione Tipo Qualità Configurazione
Voci del Browser Locale Base Gratuito, nessuna configurazione
Kokoro Locale Alta Gratuito, viene eseguito sul tuo dispositivo
Gemini 3.1 Flash TTS Cloud Naturale Aggiungi la API key di OpenRouter
ElevenLabs Cloud Premium Aggiungi la tua API key
Cartesia (Sonic 3.5) Cloud Premium Aggiungi la tua API key
Resemble.ai Cloud Eccellente (clonazione vocale) Aggiungi la tua API key

Dimensioni del download di Kokoro: Il modello Kokoro viene fornito in due varianti, e quella scaricata dipende dalla tua piattaforma. macOS e iOS caricano il modello più piccolo con quantizzazione INT8 (~88 MB), mentre l'estensione/browser utilizza la build WebGPU a precisione intera più grande (~330 MB). Si tratta di un download una tantum.

Note sulla piattaforma:

  • Kokoro nativo su iOS (v0.9.720+): Viene eseguito nel processo host di iOS tramite OnnxRuntime invece di WebView, risolvendo i crash su iPhone 13/14.
  • Kokoro su macOS: Riproduce in streaming frase per frase (entro circa 1 secondo dalla pressione di play) attraverso il processo helper desktop.
  • Gemini TTS (v0.9.723+): Tramite OpenRouter — ora riproduce frase per frase, quindi l'audio inizia dopo la prima frase invece di attendere la sintesi dell'intera risposta.
  • Cartesia (v0.9.723+): Una singola API key alimenta sia Sonic 3.5 (output) che Ink (input). Non c'è una voce predefinita: scegline una in Impostazioni > Voce prima di abilitarla.

Velocità di riproduzione: Lo slider della velocità (0.5×–2.0×) viene applicato dal provider per ElevenLabs (limitato a 0.7–1.2×) e Cartesia (limitato a 0.6–1.5×). Le voci del browser e Kokoro accelerano localmente; Resemble.ai e Gemini non hanno il controllo della velocità e riproducono sempre a velocità normale.

Per abilitarlo:

  1. Vai in Impostazioni > Voce
  2. Scegli un'opzione di sintesi vocale
  3. Attiva "Leggi automaticamente le risposte" se desideri che l'AI legga in automatico
  4. Regola la velocità di riproduzione se preferisci

Se la riproduzione fallisce: Gli errori vocali ora appaiono come una notifica toast invece di fallire silenziosamente — quindi una API key mancante o non valida, o una voce non compatibile con il modello selezionato (comune con Resemble.ai e Cartesia), ti indicherà esattamente cosa correggere.

Locale vs Cloud: Le voci del browser e Kokoro non inviano mai nulla al di fuori del tuo dispositivo. Gemini, ElevenLabs, Cartesia e Resemble.ai inviano il testo ai loro server (utilizzando le tue API key) per generare l'audio. Consulta Privacy & Data per i dettagli.

I costi della voce (TTS + STT) vengono raggruppati come voice_cost nella conversazione, seguendo il percorso one-shot.

Input Vocale (Speech-to-Text)

Ditta i tuoi messaggi invece di digitarli. Clicca sull'icona del microfono nel composer per avviare la registrazione. Caiioo trascrive ciò che dici e lo inserisce nel campo del messaggio.

Scegli come trascrivere:

Opzione Tipo Privacy Configurazione
Whisper (Browser) Locale Completamente privata GRATIS, gira sul tuo dispositivo
WhisperKit (iOS) Locale Completamente privata GRATIS, sul dispositivo
whisper.cpp & Moonshine (Android) Locale Completamente privata GRATIS, sul dispositivo
Browser Speech Locale Privata GRATIS, integrato
ElevenLabs Scribe Cloud Accurata (ottima per lingue non inglesi) Aggiungi la tua chiave API ElevenLabs
Cartesia Ink Cloud Accurata, bassa latenza Aggiungi la tua chiave API Cartesia

Le opzioni locali (Whisper, WhisperKit, whisper.cpp, Moonshine, Browser Speech) mantengono l'audio in locale — nulla viene inviato ai server. ElevenLabs e Cartesia inviano l'audio ai loro server per la trascrizione (usando la tua chiave API) e offrono una precisione maggiore, specialmente per l'italiano e altre lingue.

Per usarlo:

  1. Clicca sull'icona del microfono nel composer
  2. Pronuncia il tuo messaggio
  3. Ferma quando hai finito
  4. La trascrizione appare nel campo del messaggio
  5. Modifica se necessario, poi invia

Prima configurazione: La prima volta che usi un modello vocale sul dispositivo, questo deve essere scaricato e preparato. Il composer mostrerà l'avanzamento ("Download modello vocale… N%", poi "Preparazione"/"Caricamento"), quindi una breve pausa al primo tocco del microfono è normale.

Dettatura di Sistema (macOS)

Gli abbonati Pro su macOS possono anche installare PrivateVoice, un'app complementare separata che aggiunge una scorciatoia globale "premi per parlare" per dettare in qualsiasi applicazione, non solo in Caiioo. Consulta la pagina di download desktop per i dettagli.

Vedi Anche

  • Privacy e Dati — Come vengono gestiti i dati vocali
  • Piattaforma e Configurazione — Disponibilità dell'app desktop e di PrivateVoice
  • Impostazioni > Voce — Configura le opzioni vocali per la tua configurazione

This guide is maintained by the Caiioo team using Slate, our built-in editor.