본 문서는 영어 원본을 기계 번역한 것입니다. 번역본과 영어 원본 사이에 내용이 상충할 경우 영어 원본이 우선합니다. 영어 원본 보기
음성: 말하기 및 듣기
AI가 응답을 소리 내어 읽어주기를 원하시나요? 아니면 타이핑 대신 메시지를 말로 입력하고 싶으신가요? Caiioo는 음성 입력 및 출력을 제공하며, 모든 설정이 가능하고 일부는 기기에서 로컬로 실행됩니다.

음성 출력 (Text-to-Speech)
AI가 응답을 목소리로 읽어주도록 설정하세요. 다음 옵션 중에서 선택할 수 있습니다:
| 옵션 | 유형 | 품질 | 설정 |
|---|---|---|---|
| Browser Voices | 로컬 | 기본 | 무료, 설정 불필요 |
| Kokoro | 로컬 | 높음 | 무료, 기기에서 실행 |
| Gemini 3.1 Flash TTS | 클라우드 | 자연스러움 | OpenRouter API key 추가 |
| ElevenLabs | 클라우드 | 프리미엄 | API key 추가 |
| Cartesia (Sonic 3.5) | 클라우드 | 프리미엄 | API key 추가 |
| Resemble.ai | 클라우드 | 우수 (음성 복제) | API key 추가 |
Kokoro 다운로드 크기: Kokoro 모델은 두 가지 변체로 제공되며, 플랫폼에 따라 다운로드되는 모델이 다릅니다. macOS 및 iOS는 더 작은 INT8-quantized 모델(~88 MB)을 로드하며, 확장 프로그램/브라우저는 더 큰 full-precision WebGPU 빌드(~330 MB)를 사용합니다. 이는 최초 1회만 다운로드됩니다.
플랫폼 참고 사항:
- iOS 네이티브 Kokoro (v0.9.720+): WebView 대신 OnnxRuntime을 통해 iOS 호스트 프로세스에서 실행되어 iPhone 13/14의 충돌 문제를 해결했습니다.
- macOS Kokoro: 데스크톱 헬퍼 프로세스를 통해 문장 단위로 스트리밍됩니다(재생 버튼 클릭 후 약 1초 이내).
- Gemini TTS (v0.9.723+): OpenRouter를 통해 제공되며, 이제 문장 단위로 재생됩니다. 따라서 전체 응답이 합성될 때까지 기다리지 않고 첫 번째 문장이 완료되는 즉시 오디오가 시작됩니다.
- Cartesia (v0.9.723+): 하나의 API key로 Sonic 3.5 (출력)와 Ink (입력)를 모두 사용할 수 있습니다. 기본 음성이 지정되어 있지 않으므로, 활성화하기 전에 Settings > Voice에서 음성을 선택하세요.
재생 속도: 속도 슬라이더(0.5×–2.0×)는 ElevenLabs(0.7–1.2×로 제한) 및 Cartesia(0.6–1.5×로 제한)의 경우 제공업체 측에서 적용됩니다. Browser voices 및 Kokoro는 로컬에서 속도가 조절됩니다. Resemble.ai 및 Gemini는 속도 제어 기능이 없으며 항상 일반 속도로 재생됩니다.
활성화 방법:
- Settings > Voice로 이동합니다.
- Text-to-speech 옵션을 선택합니다.
- AI가 자동으로 읽어주기를 원하면 "Auto-read responses"를 켭니다.
- 원하는 경우 재생 속도를 조절합니다.
재생 실패 시: 이제 음성 오류가 발생하면 아무 반응이 없는 대신 토스트 알림으로 표시됩니다. API key 누락 또는 유효하지 않은 키, 선택한 모델과 호환되지 않는 음성(Resemble.ai 및 Cartesia에서 자주 발생) 등 수정해야 할 사항을 정확히 알려줍니다.
로컬 vs 클라우드: Browser voices 및 Kokoro는 기기 외부로 데이터를 전송하지 않습니다. Gemini, ElevenLabs, Cartesia, Resemble.ai는 오디오 생성을 위해 텍스트를 해당 서버로 전송합니다(사용자의 API keys 사용). 자세한 내용은 Privacy & Data를 참조하세요.
음성 비용 (TTS + STT)은 대화에서 voice_cost로 합산되어 표시되며, 이는 one-shot 경로와 일치합니다.
음성 입력 (Speech-to-Text)
타이핑 대신 메시지를 받아쓰게 하세요. 작성기의 마이크 아이콘을 클릭하여 녹음을 시작하세요. Caiioo가 말소리를 텍스트로 변환하여 메시지 필드에 입력합니다.
변환 방식을 선택하세요:
| 옵션 | 유형 | 개인정보 보호 | 설정 |
|---|---|---|---|
| Whisper (브라우저) | 로컬 | 완전 비공개 | FREE, 기기에서 실행 |
| WhisperKit (iOS) | 로컬 | 완전 비공개 | FREE, 기기 내 실행 |
| whisper.cpp & Moonshine (Android) | 로컬 | 완전 비공개 | FREE, 기기 내 실행 |
| 브라우저 음성 | 로컬 | 비공개 | FREE, 내장 기능 |
| ElevenLabs Scribe | 클라우드 | 정확함 (비영어권 우수) | ElevenLabs API 키 추가 필요 |
| Cartesia Ink | 클라우드 | 정확함, 낮은 지연 시간 | Cartesia API 키 추가 필요 |
로컬 옵션(Whisper, WhisperKit, whisper.cpp, Moonshine, 브라우저 음성)은 오디오를 로컬에 유지하며 서버로 전송하지 않습니다. ElevenLabs와 Cartesia는 텍스트 변환을 위해 오디오를 서버로 전송하며(사용자 API 키 사용), 특히 한국어 등 비영어권 언어에서 더 높은 정확도를 제공합니다.
사용 방법:
- 작성기의 마이크 아이콘을 클릭합니다.
- 메시지를 말합니다.
- 완료되면 중지합니다.
- 변환된 텍스트가 메시지 필드에 나타납니다.
- 필요한 경우 편집 후 전송합니다.
최초 설정: 기기 내 음성 모델을 처음 사용할 때는 모델을 다운로드하고 준비해야 합니다. 작성기에 진행 상황("음성 모델 다운로드 중… N%", 이후 "준비 중"/"로딩 중")이 표시되므로, 첫 마이크 탭 시 잠시 멈추는 것은 오류가 아닌 정상적인 과정입니다.
시스템 전역 받아쓰기 (macOS)
macOS의 Pro 구독자는 Caiioo뿐만 아니라 모든 애플리케이션에서 받아쓰기를 할 수 있는 글로벌 푸시 투 토크(press-to-talk) 단축키를 추가하는 별도의 동반 앱인 PrivateVoice를 설치할 수 있습니다. 자세한 내용은 데스크톱 다운로드 페이지를 참조하세요.
관련 항목
- 개인정보 및 데이터 — 음성 데이터 처리 방식
- 플랫폼 및 설정 — 데스크톱 앱 및 PrivateVoice 사용 가능 여부
- 설정 > 음성 — 환경에 맞는 음성 옵션 구성
This guide is maintained by the Caiioo team using Slate, our built-in editor.