본 문서는 영어 원본을 기계 번역한 것입니다. 번역본과 영어 원본 사이에 내용이 상충할 경우 영어 원본이 우선합니다. 영어 원본 보기

음성: 말하기 및 듣기

AI가 응답을 소리 내어 읽어주기를 원하시나요? 아니면 타이핑 대신 메시지를 말로 입력하고 싶으신가요? Caiioo는 음성 입력 및 출력을 제공하며, 모든 설정이 가능하고 일부는 기기에서 로컬로 실행됩니다.

입력 및 출력 옵션, 자동 읽기 토글, 재생 속도가 포함된 음성 설정

음성 출력 (Text-to-Speech)

AI가 응답을 목소리로 읽어주도록 설정하세요. 다음 옵션 중에서 선택할 수 있습니다:

옵션	유형	품질	설정
Browser Voices	로컬	기본	무료, 설정 불필요
Kokoro	로컬	높음	무료, 기기에서 실행
Gemini 3.1 Flash TTS	클라우드	자연스러움	OpenRouter API key 추가
ElevenLabs	클라우드	프리미엄	API key 추가
Cartesia (Sonic 3.5)	클라우드	프리미엄	API key 추가
Resemble.ai	클라우드	우수 (음성 복제)	API key 추가

Kokoro 다운로드 크기: Kokoro 모델은 두 가지 변체로 제공되며, 플랫폼에 따라 다운로드되는 모델이 다릅니다. macOS 및 iOS는 더 작은 INT8-quantized 모델(~88 MB)을 로드하며, 확장 프로그램/브라우저는 더 큰 full-precision WebGPU 빌드(~330 MB)를 사용합니다. 이는 최초 1회만 다운로드됩니다.

플랫폼 참고 사항:

iOS 네이티브 Kokoro (v0.9.720+): WebView 대신 OnnxRuntime을 통해 iOS 호스트 프로세스에서 실행되어 iPhone 13/14의 충돌 문제를 해결했습니다.
macOS Kokoro: 데스크톱 헬퍼 프로세스를 통해 문장 단위로 스트리밍됩니다(재생 버튼 클릭 후 약 1초 이내).
Gemini TTS (v0.9.723+): OpenRouter를 통해 제공되며, 이제 문장 단위로 재생됩니다. 따라서 전체 응답이 합성될 때까지 기다리지 않고 첫 번째 문장이 완료되는 즉시 오디오가 시작됩니다.
Cartesia (v0.9.723+): 하나의 API key로 Sonic 3.5 (출력)와 Ink (입력)를 모두 사용할 수 있습니다. 기본 음성이 지정되어 있지 않으므로, 활성화하기 전에 Settings > Voice에서 음성을 선택하세요.

재생 속도: 속도 슬라이더(0.5×–2.0×)는 ElevenLabs(0.7–1.2×로 제한) 및 Cartesia(0.6–1.5×로 제한)의 경우 제공업체 측에서 적용됩니다. Browser voices 및 Kokoro는 로컬에서 속도가 조절됩니다. Resemble.ai 및 Gemini는 속도 제어 기능이 없으며 항상 일반 속도로 재생됩니다.

활성화 방법:

Settings > Voice로 이동합니다.
Text-to-speech 옵션을 선택합니다.
AI가 자동으로 읽어주기를 원하면 "Auto-read responses"를 켭니다.
원하는 경우 재생 속도를 조절합니다.

재생 실패 시: 이제 음성 오류가 발생하면 아무 반응이 없는 대신 토스트 알림으로 표시됩니다. API key 누락 또는 유효하지 않은 키, 선택한 모델과 호환되지 않는 음성(Resemble.ai 및 Cartesia에서 자주 발생) 등 수정해야 할 사항을 정확히 알려줍니다.

로컬 vs 클라우드: Browser voices 및 Kokoro는 기기 외부로 데이터를 전송하지 않습니다. Gemini, ElevenLabs, Cartesia, Resemble.ai는 오디오 생성을 위해 텍스트를 해당 서버로 전송합니다(사용자의 API keys 사용). 자세한 내용은 Privacy & Data를 참조하세요.

음성 비용 (TTS + STT)은 대화에서 voice_cost로 합산되어 표시되며, 이는 one-shot 경로와 일치합니다.

음성 입력 (Speech-to-Text)

타이핑 대신 메시지를 받아쓰게 하세요. 작성기의 마이크 아이콘을 클릭하여 녹음을 시작하세요. Caiioo가 말소리를 텍스트로 변환하여 메시지 필드에 입력합니다.

변환 방식을 선택하세요:

옵션	유형	개인정보 보호	설정
Whisper (브라우저)	로컬	완전 비공개	FREE, 기기에서 실행
WhisperKit (iOS)	로컬	완전 비공개	FREE, 기기 내 실행
whisper.cpp & Moonshine (Android)	로컬	완전 비공개	FREE, 기기 내 실행
브라우저 음성	로컬	비공개	FREE, 내장 기능
ElevenLabs Scribe	클라우드	정확함 (비영어권 우수)	ElevenLabs API 키 추가 필요
Cartesia Ink	클라우드	정확함, 낮은 지연 시간	Cartesia API 키 추가 필요

로컬 옵션(Whisper, WhisperKit, whisper.cpp, Moonshine, 브라우저 음성)은 오디오를 로컬에 유지하며 서버로 전송하지 않습니다. ElevenLabs와 Cartesia는 텍스트 변환을 위해 오디오를 서버로 전송하며(사용자 API 키 사용), 특히 한국어 등 비영어권 언어에서 더 높은 정확도를 제공합니다.

사용 방법:

작성기의 마이크 아이콘을 클릭합니다.
메시지를 말합니다.
완료되면 중지합니다.
변환된 텍스트가 메시지 필드에 나타납니다.
필요한 경우 편집 후 전송합니다.

최초 설정: 기기 내 음성 모델을 처음 사용할 때는 모델을 다운로드하고 준비해야 합니다. 작성기에 진행 상황("음성 모델 다운로드 중… N%", 이후 "준비 중"/"로딩 중")이 표시되므로, 첫 마이크 탭 시 잠시 멈추는 것은 오류가 아닌 정상적인 과정입니다.

시스템 전역 받아쓰기 (macOS)

macOS의 Pro 구독자는 Caiioo뿐만 아니라 모든 애플리케이션에서 받아쓰기를 할 수 있는 글로벌 푸시 투 토크(press-to-talk) 단축키를 추가하는 별도의 동반 앱인 PrivateVoice를 설치할 수 있습니다. 자세한 내용은 데스크톱 다운로드 페이지를 참조하세요.

음성: 말하기 및 듣기

음성 출력 (Text-to-Speech)

음성 입력 (Speech-to-Text)

시스템 전역 받아쓰기 (macOS)

관련 항목