Ini adalah terjemahan mesin dari dokumen asli berbahasa Inggris. Jika terjadi perbedaan antara terjemahan ini dan versi asli bahasa Inggris, maka versi bahasa Inggris yang akan berlaku. Baca versi asli bahasa Inggris

Suara: Bicara dan Dengar

Ingin AI membacakan respons dengan keras? Atau mendiktekan pesan alih-alih mengetik? Caiioo menawarkan input dan output suara—semuanya dapat dikonfigurasi, beberapa berjalan secara lokal di perangkat Anda.

Pengaturan suara dengan opsi input dan output, sakelar baca otomatis, dan kecepatan pemutaran

Output Suara (Text-to-Speech)

Minta AI membacakan tanggapannya dengan lantang. Pilih dari:

Opsi	Tipe	Kualitas	Pengaturan
Browser Voices	Lokal	Dasar	Gratis, tanpa pengaturan
Kokoro	Lokal	Tinggi	Gratis, berjalan di perangkat Anda
Gemini 3.1 Flash TTS	Cloud	Alami	Tambahkan API key OpenRouter
ElevenLabs	Cloud	Premium	Tambahkan API key Anda
Cartesia (Sonic 3.5)	Cloud	Premium	Tambahkan API key Anda
Resemble.ai	Cloud	Sangat Baik (kloning suara)	Tambahkan API key Anda

Ukuran unduhan Kokoro: Model Kokoro hadir dalam dua varian, dan varian yang diunduh bergantung pada platform Anda. macOS dan iOS memuat model terkuantisasi INT8 yang lebih kecil (~88 MB), sementara ekstensi/browser menggunakan build WebGPU presisi penuh yang lebih besar (~330 MB). Ini adalah unduhan satu kali.

Catatan platform:

iOS native Kokoro (v0.9.720+): Berjalan di proses host iOS melalui OnnxRuntime alih-alih WebView, memperbaiki masalah crash pada iPhone 13/14.
macOS Kokoro: Melakukan streaming kalimat demi kalimat (dalam waktu ~1 detik setelah menekan putar) melalui proses pembantu desktop.
Gemini TTS (v0.9.723+): Melalui OpenRouter — sekarang memutar kalimat demi kalimat, sehingga audio dimulai setelah kalimat pertama alih-alih menunggu seluruh balasan selesai disintesis.
Cartesia (v0.9.723+): Satu API key mendukung Sonic 3.5 (output) dan Ink (input). Tidak ada suara default—pilih salah satu di Settings > Voice sebelum Anda mengaktifkannya.

Kecepatan pemutaran: Slider kecepatan (0,5×–2,0×) diterapkan oleh penyedia untuk ElevenLabs (dibatasi pada 0,7–1,2×) dan Cartesia (dibatasi pada 0,6–1,5×). Browser voices dan Kokoro mempercepat secara lokal; Resemble.ai dan Gemini tidak memiliki kontrol kecepatan dan selalu diputar pada kecepatan normal.

Cara mengaktifkannya:

Buka Settings > Voice
Pilih opsi text-to-speech
Aktifkan "Auto-read responses" jika Anda ingin AI membaca secara otomatis
Sesuaikan kecepatan pemutaran jika Anda mau

Jika pemutaran gagal: Kesalahan suara sekarang muncul sebagai notifikasi toast alih-alih gagal secara diam-diam—sehingga API key yang hilang atau tidak valid, atau suara yang tidak kompatibel dengan model yang dipilih (umum terjadi pada Resemble.ai dan Cartesia), akan memberi tahu Anda dengan tepat apa yang harus diperbaiki.

Lokal vs Cloud: Browser voices dan Kokoro tidak pernah mengirimkan apa pun ke luar perangkat Anda. Gemini, ElevenLabs, Cartesia, dan Resemble.ai mengirimkan teks ke server mereka (menggunakan API keys Anda) untuk menghasilkan audio. Lihat Privacy & Data untuk detailnya.

Biaya suara (TTS + STT) terakumulasi sebagai voice_cost pada percakapan, sesuai dengan jalur sekali jalan (one-shot).

Input Suara (Speech-to-Text)

Diktekan pesan Anda alih-alih mengetik. Klik ikon mikrofon di komposer untuk mulai merekam. Caiioo mentranskripsikan apa yang Anda katakan dan memasukkannya ke kolom pesan.

Pilih cara transkripsinya:

Opsi	Tipe	Privasi	Penyiapan
Whisper (Browser)	Lokal	Sepenuhnya pribadi	GRATIS, berjalan di perangkat Anda
WhisperKit (iOS)	Lokal	Sepenuhnya pribadi	GRATIS, di perangkat
whisper.cpp & Moonshine (Android)	Lokal	Sepenuhnya pribadi	GRATIS, di perangkat
Browser Speech	Lokal	Pribadi	GRATIS, bawaan
ElevenLabs Scribe	Cloud	Akurat (bagus untuk non-Inggris)	Tambahkan kunci API ElevenLabs Anda
Cartesia Ink	Cloud	Akurat, latensi rendah	Tambahkan kunci API Cartesia Anda

Opsi lokal (Whisper, WhisperKit, whisper.cpp, Moonshine, Browser Speech) menjaga audio Anda tetap lokal—tidak ada yang dikirim ke server mana pun. ElevenLabs dan Cartesia mengirimkan audio ke server mereka untuk transkripsi (menggunakan kunci API Anda) dan menawarkan akurasi yang lebih tinggi, terutama untuk bahasa selain bahasa Inggris.

Cara menggunakannya:

Klik ikon mikrofon di komposer
Ucapkan pesan Anda
Berhenti setelah selesai
Transkrip muncul di kolom pesan
Edit jika perlu, lalu kirim

Penyiapan pertama kali: Pertama kali Anda menggunakan model ucapan di perangkat, model tersebut harus diunduh dan disiapkan. Komposer menunjukkan progresnya ("Mengunduh model ucapan… N%", lalu "Menyiapkan"/"Memuat"), jadi jeda singkat pada ketukan mikrofon pertama adalah hal yang wajar, bukan macet.

Dikte Seluruh Sistem (macOS)

Pelanggan Pro di macOS juga dapat menginstal PrivateVoice, aplikasi pendamping terpisah yang menambahkan hotkey tekan-untuk-bicara global untuk mendikte ke aplikasi apa pun—tidak hanya Caiioo. Lihat halaman unduhan desktop untuk detailnya.

Lihat Juga

Privasi & Data — Bagaimana data suara ditangani
Platform & Penyiapan — Ketersediaan aplikasi desktop dan PrivateVoice
Pengaturan > Suara — Konfigurasikan opsi suara untuk penyiapan Anda

This guide is maintained by the Caiioo team using Slate, our built-in editor.