Ini adalah terjemahan mesin dari dokumen asli berbahasa Inggris. Jika terjadi perbedaan antara terjemahan ini dan versi asli bahasa Inggris, maka versi bahasa Inggris yang akan berlaku. Baca versi asli bahasa Inggris
Suara: Bicara dan Dengar
Ingin AI membacakan respons dengan keras? Atau mendiktekan pesan alih-alih mengetik? Caiioo menawarkan input dan output suara—semuanya dapat dikonfigurasi, beberapa berjalan secara lokal di perangkat Anda.

Output Suara (Text-to-Speech)
Minta AI membacakan tanggapannya dengan lantang. Pilih dari:
| Opsi | Tipe | Kualitas | Pengaturan |
|---|---|---|---|
| Browser Voices | Lokal | Dasar | Gratis, tanpa pengaturan |
| Kokoro | Lokal | Tinggi | Gratis, berjalan di perangkat Anda |
| Gemini 3.1 Flash TTS | Cloud | Alami | Tambahkan API key OpenRouter |
| ElevenLabs | Cloud | Premium | Tambahkan API key Anda |
| Cartesia (Sonic 3.5) | Cloud | Premium | Tambahkan API key Anda |
| Resemble.ai | Cloud | Sangat Baik (kloning suara) | Tambahkan API key Anda |
Ukuran unduhan Kokoro: Model Kokoro hadir dalam dua varian, dan varian yang diunduh bergantung pada platform Anda. macOS dan iOS memuat model terkuantisasi INT8 yang lebih kecil (~88 MB), sementara ekstensi/browser menggunakan build WebGPU presisi penuh yang lebih besar (~330 MB). Ini adalah unduhan satu kali.
Catatan platform:
- iOS native Kokoro (v0.9.720+): Berjalan di proses host iOS melalui OnnxRuntime alih-alih WebView, memperbaiki masalah crash pada iPhone 13/14.
- macOS Kokoro: Melakukan streaming kalimat demi kalimat (dalam waktu ~1 detik setelah menekan putar) melalui proses pembantu desktop.
- Gemini TTS (v0.9.723+): Melalui OpenRouter — sekarang memutar kalimat demi kalimat, sehingga audio dimulai setelah kalimat pertama alih-alih menunggu seluruh balasan selesai disintesis.
- Cartesia (v0.9.723+): Satu API key mendukung Sonic 3.5 (output) dan Ink (input). Tidak ada suara default—pilih salah satu di Settings > Voice sebelum Anda mengaktifkannya.
Kecepatan pemutaran: Slider kecepatan (0,5×–2,0×) diterapkan oleh penyedia untuk ElevenLabs (dibatasi pada 0,7–1,2×) dan Cartesia (dibatasi pada 0,6–1,5×). Browser voices dan Kokoro mempercepat secara lokal; Resemble.ai dan Gemini tidak memiliki kontrol kecepatan dan selalu diputar pada kecepatan normal.
Cara mengaktifkannya:
- Buka Settings > Voice
- Pilih opsi text-to-speech
- Aktifkan "Auto-read responses" jika Anda ingin AI membaca secara otomatis
- Sesuaikan kecepatan pemutaran jika Anda mau
Jika pemutaran gagal: Kesalahan suara sekarang muncul sebagai notifikasi toast alih-alih gagal secara diam-diam—sehingga API key yang hilang atau tidak valid, atau suara yang tidak kompatibel dengan model yang dipilih (umum terjadi pada Resemble.ai dan Cartesia), akan memberi tahu Anda dengan tepat apa yang harus diperbaiki.
Lokal vs Cloud: Browser voices dan Kokoro tidak pernah mengirimkan apa pun ke luar perangkat Anda. Gemini, ElevenLabs, Cartesia, dan Resemble.ai mengirimkan teks ke server mereka (menggunakan API keys Anda) untuk menghasilkan audio. Lihat Privacy & Data untuk detailnya.
Biaya suara (TTS + STT) terakumulasi sebagai voice_cost pada percakapan, sesuai dengan jalur sekali jalan (one-shot).
Input Suara (Speech-to-Text)
Diktekan pesan Anda alih-alih mengetik. Klik ikon mikrofon di komposer untuk mulai merekam. Caiioo mentranskripsikan apa yang Anda katakan dan memasukkannya ke kolom pesan.
Pilih cara transkripsinya:
| Opsi | Tipe | Privasi | Penyiapan |
|---|---|---|---|
| Whisper (Browser) | Lokal | Sepenuhnya pribadi | GRATIS, berjalan di perangkat Anda |
| WhisperKit (iOS) | Lokal | Sepenuhnya pribadi | GRATIS, di perangkat |
| whisper.cpp & Moonshine (Android) | Lokal | Sepenuhnya pribadi | GRATIS, di perangkat |
| Browser Speech | Lokal | Pribadi | GRATIS, bawaan |
| ElevenLabs Scribe | Cloud | Akurat (bagus untuk non-Inggris) | Tambahkan kunci API ElevenLabs Anda |
| Cartesia Ink | Cloud | Akurat, latensi rendah | Tambahkan kunci API Cartesia Anda |
Opsi lokal (Whisper, WhisperKit, whisper.cpp, Moonshine, Browser Speech) menjaga audio Anda tetap lokal—tidak ada yang dikirim ke server mana pun. ElevenLabs dan Cartesia mengirimkan audio ke server mereka untuk transkripsi (menggunakan kunci API Anda) dan menawarkan akurasi yang lebih tinggi, terutama untuk bahasa selain bahasa Inggris.
Cara menggunakannya:
- Klik ikon mikrofon di komposer
- Ucapkan pesan Anda
- Berhenti setelah selesai
- Transkrip muncul di kolom pesan
- Edit jika perlu, lalu kirim
Penyiapan pertama kali: Pertama kali Anda menggunakan model ucapan di perangkat, model tersebut harus diunduh dan disiapkan. Komposer menunjukkan progresnya ("Mengunduh model ucapan… N%", lalu "Menyiapkan"/"Memuat"), jadi jeda singkat pada ketukan mikrofon pertama adalah hal yang wajar, bukan macet.
Dikte Seluruh Sistem (macOS)
Pelanggan Pro di macOS juga dapat menginstal PrivateVoice, aplikasi pendamping terpisah yang menambahkan hotkey tekan-untuk-bicara global untuk mendikte ke aplikasi apa pun—tidak hanya Caiioo. Lihat halaman unduhan desktop untuk detailnya.
Lihat Juga
- Privasi & Data — Bagaimana data suara ditangani
- Platform & Penyiapan — Ketersediaan aplikasi desktop dan PrivateVoice
- Pengaturan > Suara — Konfigurasikan opsi suara untuk penyiapan Anda
This guide is maintained by the Caiioo team using Slate, our built-in editor.