Ini adalah terjemahan mesin dari dokumen asli berbahasa Inggris. Jika terjadi perbedaan antara terjemahan ini dan versi asli bahasa Inggris, maka versi bahasa Inggris yang akan berlaku. Baca versi asli bahasa Inggris


Suara: Bicara dan Dengar

Ingin AI membacakan respons dengan keras? Atau mendiktekan pesan alih-alih mengetik? Caiioo menawarkan input dan output suara—semuanya dapat dikonfigurasi, beberapa berjalan secara lokal di perangkat Anda.

Pengaturan suara dengan opsi input dan output, sakelar baca otomatis, dan kecepatan pemutaran

Output Suara (Text-to-Speech)

Minta AI membacakan tanggapannya dengan lantang. Pilih dari:

Opsi Tipe Kualitas Pengaturan
Browser Voices Lokal Dasar Gratis, tanpa pengaturan
Kokoro Lokal Tinggi Gratis, berjalan di perangkat Anda
Gemini 3.1 Flash TTS Cloud Alami Tambahkan API key OpenRouter
ElevenLabs Cloud Premium Tambahkan API key Anda
Cartesia (Sonic 3.5) Cloud Premium Tambahkan API key Anda
Resemble.ai Cloud Sangat Baik (kloning suara) Tambahkan API key Anda

Ukuran unduhan Kokoro: Model Kokoro hadir dalam dua varian, dan varian yang diunduh bergantung pada platform Anda. macOS dan iOS memuat model terkuantisasi INT8 yang lebih kecil (~88 MB), sementara ekstensi/browser menggunakan build WebGPU presisi penuh yang lebih besar (~330 MB). Ini adalah unduhan satu kali.

Catatan platform:

  • iOS native Kokoro (v0.9.720+): Berjalan di proses host iOS melalui OnnxRuntime alih-alih WebView, memperbaiki masalah crash pada iPhone 13/14.
  • macOS Kokoro: Melakukan streaming kalimat demi kalimat (dalam waktu ~1 detik setelah menekan putar) melalui proses pembantu desktop.
  • Gemini TTS (v0.9.723+): Melalui OpenRouter — sekarang memutar kalimat demi kalimat, sehingga audio dimulai setelah kalimat pertama alih-alih menunggu seluruh balasan selesai disintesis.
  • Cartesia (v0.9.723+): Satu API key mendukung Sonic 3.5 (output) dan Ink (input). Tidak ada suara default—pilih salah satu di Settings > Voice sebelum Anda mengaktifkannya.

Kecepatan pemutaran: Slider kecepatan (0,5×–2,0×) diterapkan oleh penyedia untuk ElevenLabs (dibatasi pada 0,7–1,2×) dan Cartesia (dibatasi pada 0,6–1,5×). Browser voices dan Kokoro mempercepat secara lokal; Resemble.ai dan Gemini tidak memiliki kontrol kecepatan dan selalu diputar pada kecepatan normal.

Cara mengaktifkannya:

  1. Buka Settings > Voice
  2. Pilih opsi text-to-speech
  3. Aktifkan "Auto-read responses" jika Anda ingin AI membaca secara otomatis
  4. Sesuaikan kecepatan pemutaran jika Anda mau

Jika pemutaran gagal: Kesalahan suara sekarang muncul sebagai notifikasi toast alih-alih gagal secara diam-diam—sehingga API key yang hilang atau tidak valid, atau suara yang tidak kompatibel dengan model yang dipilih (umum terjadi pada Resemble.ai dan Cartesia), akan memberi tahu Anda dengan tepat apa yang harus diperbaiki.

Lokal vs Cloud: Browser voices dan Kokoro tidak pernah mengirimkan apa pun ke luar perangkat Anda. Gemini, ElevenLabs, Cartesia, dan Resemble.ai mengirimkan teks ke server mereka (menggunakan API keys Anda) untuk menghasilkan audio. Lihat Privacy & Data untuk detailnya.

Biaya suara (TTS + STT) terakumulasi sebagai voice_cost pada percakapan, sesuai dengan jalur sekali jalan (one-shot).

Input Suara (Speech-to-Text)

Diktekan pesan Anda alih-alih mengetik. Klik ikon mikrofon di komposer untuk mulai merekam. Caiioo mentranskripsikan apa yang Anda katakan dan memasukkannya ke kolom pesan.

Pilih cara transkripsinya:

Opsi Tipe Privasi Penyiapan
Whisper (Browser) Lokal Sepenuhnya pribadi GRATIS, berjalan di perangkat Anda
WhisperKit (iOS) Lokal Sepenuhnya pribadi GRATIS, di perangkat
whisper.cpp & Moonshine (Android) Lokal Sepenuhnya pribadi GRATIS, di perangkat
Browser Speech Lokal Pribadi GRATIS, bawaan
ElevenLabs Scribe Cloud Akurat (bagus untuk non-Inggris) Tambahkan kunci API ElevenLabs Anda
Cartesia Ink Cloud Akurat, latensi rendah Tambahkan kunci API Cartesia Anda

Opsi lokal (Whisper, WhisperKit, whisper.cpp, Moonshine, Browser Speech) menjaga audio Anda tetap lokal—tidak ada yang dikirim ke server mana pun. ElevenLabs dan Cartesia mengirimkan audio ke server mereka untuk transkripsi (menggunakan kunci API Anda) dan menawarkan akurasi yang lebih tinggi, terutama untuk bahasa selain bahasa Inggris.

Cara menggunakannya:

  1. Klik ikon mikrofon di komposer
  2. Ucapkan pesan Anda
  3. Berhenti setelah selesai
  4. Transkrip muncul di kolom pesan
  5. Edit jika perlu, lalu kirim

Penyiapan pertama kali: Pertama kali Anda menggunakan model ucapan di perangkat, model tersebut harus diunduh dan disiapkan. Komposer menunjukkan progresnya ("Mengunduh model ucapan… N%", lalu "Menyiapkan"/"Memuat"), jadi jeda singkat pada ketukan mikrofon pertama adalah hal yang wajar, bukan macet.

Dikte Seluruh Sistem (macOS)

Pelanggan Pro di macOS juga dapat menginstal PrivateVoice, aplikasi pendamping terpisah yang menambahkan hotkey tekan-untuk-bicara global untuk mendikte ke aplikasi apa pun—tidak hanya Caiioo. Lihat halaman unduhan desktop untuk detailnya.

Lihat Juga

  • Privasi & Data — Bagaimana data suara ditangani
  • Platform & Penyiapan — Ketersediaan aplikasi desktop dan PrivateVoice
  • Pengaturan > Suara — Konfigurasikan opsi suara untuk penyiapan Anda

This guide is maintained by the Caiioo team using Slate, our built-in editor.