यह मूल अंग्रेजी दस्तावेज़ का मशीन अनुवाद है। इस अनुवाद और मूल अंग्रेजी संस्करण के बीच किसी भी विवाद की स्थिति में, अंग्रेजी संस्करण ही मान्य होगा। मूल अंग्रेजी संस्करण पढ़ें

आवाज़: बोलें और सुनें

चाहते हैं कि AI जवाबों को ज़ोर से पढ़े? या टाइप करने के बजाय संदेश बोलें? Caiioo वॉयस इनपुट और आउटपुट प्रदान करता है—सभी कॉन्फ़िगर करने योग्य, कुछ आपके डिवाइस पर स्थानीय रूप से चलते हैं।

इनपुट और आउटपुट विकल्पों, ऑटो-रीड टॉगल और प्लेबैक गति के साथ वॉयस सेटिंग्स

Voice Output (Text-to-Speech)

AI से उसके उत्तरों को बोलकर पढ़वाएं। इनमें से चुनें:

विकल्प	प्रकार	गुणवत्ता	सेटअप
Browser Voices	Local	बुनियादी	मुफ्त, कोई सेटअप नहीं
Kokoro	Local	उच्च	मुफ्त, आपके डिवाइस पर चलता है
Gemini 3.1 Flash TTS	Cloud	प्राकृतिक	OpenRouter API key जोड़ें
ElevenLabs	Cloud	प्रीमियम	अपनी API key जोड़ें
Cartesia (Sonic 3.5)	Cloud	प्रीमियम	अपनी API key जोड़ें
Resemble.ai	Cloud	उत्कृष्ट (voice cloning)	अपनी API key जोड़ें

Kokoro डाउनलोड साइज: Kokoro मॉडल दो वेरिएंट में आता है, और आपके प्लेटफॉर्म के आधार पर तय होता है कि कौन सा डाउनलोड होगा। macOS और iOS छोटे INT8-quantized मॉडल (~88 MB) को लोड करते हैं, जबकि एक्सटेंशन/ब्राउज़र बड़े फुल-प्रिसिजन WebGPU बिल्ड (~330 MB) का उपयोग करते हैं। यह केवल एक बार का डाउनलोड है।

प्लेटफॉर्म नोट्स:

iOS native Kokoro (v0.9.720+): यह WebView के बजाय OnnxRuntime के माध्यम से iOS होस्ट प्रोसेस में चलता है, जिससे iPhone 13/14 के क्रैश होने की समस्या ठीक हो जाती है।
macOS Kokoro: डेस्कटॉप हेल्पर प्रोसेस के माध्यम से वाक्य-दर-वाक्य स्ट्रीम करता है (प्ले दबाने के ~1 सेकंड के भीतर)।
Gemini TTS (v0.9.723+): OpenRouter के माध्यम से — अब वाक्य-दर-वाक्य चलता है, इसलिए ऑडियो पहले वाक्य के बाद शुरू हो जाता है, बजाय इसके कि पूरे उत्तर के सिंथेसाइज होने का इंतज़ार किया जाए।
Cartesia (v0.9.723+): एक ही API key Sonic 3.5 (आउटपुट) और Ink (इनपुट) दोनों को पावर देती है। इसमें कोई डिफॉल्ट आवाज नहीं है—इसे सक्षम करने से पहले Settings > Voice में जाकर एक आवाज चुनें।

प्लेबैक स्पीड: स्पीड स्लाइडर (0.5×–2.0×) ElevenLabs (0.7–1.2× तक सीमित) और Cartesia (0.6–1.5× तक सीमित) के लिए प्रोवाइडर द्वारा लागू किया जाता है। Browser voices और Kokoro स्थानीय रूप से गति बढ़ाते हैं; Resemble.ai और Gemini में कोई स्पीड कंट्रोल नहीं है और वे हमेशा सामान्य गति पर चलते हैं।

इसे सक्षम करने के लिए:

Settings > Voice पर जाएं
एक text-to-speech विकल्प चुनें
यदि आप चाहते हैं कि AI स्वचालित रूप से पढ़े, तो "Auto-read responses" को टॉगल करें
यदि आप चाहें तो प्लेबैक स्पीड को एडजस्ट करें

यदि प्लेबैक विफल हो जाता है: वॉइस एरर अब चुपचाप विफल होने के बजाय एक टोस्ट (नोटिफिकेशन) के रूप में दिखाई देते हैं—इसलिए यदि API key गायब या अमान्य है, या कोई ऐसी आवाज है जो चयनित मॉडल के साथ संगत नहीं है (Resemble.ai और Cartesia के साथ सामान्य), तो यह आपको सटीक रूप से बताता है कि क्या ठीक करना है।

Local बनाम Cloud: Browser voices और Kokoro आपके डिवाइस से बाहर कुछ भी नहीं भेजते हैं। Gemini, ElevenLabs, Cartesia, और Resemble.ai ऑडियो जेनरेट करने के लिए (आपकी API keys का उपयोग करके) उनके सर्वर पर टेक्स्ट भेजते हैं। विवरण के लिए Privacy & Data देखें।

वॉइस लागत (TTS + STT) बातचीत पर voice_cost के रूप में जुड़ती है, जो वन-शॉट पाथ से मेल खाती है।

वॉयस इनपुट (स्पीच-टू-टेक्स्ट)

टाइप करने के बजाय अपने संदेश बोलकर लिखवाएं। रिकॉर्डिंग शुरू करने के लिए कंपोज़र में माइक्रोफ़ोन आइकन पर क्लिक करें। Caiioo आपके द्वारा कही गई बातों को ट्रांसक्राइब करता है और उसे मैसेज फ़ील्ड में डाल देता है।

चुनें कि यह कैसे ट्रांसक्राइब करता है:

विकल्प	प्रकार	गोपनीयता	सेटअप
Whisper (ब्राउज़र)	लोकल	पूरी तरह निजी	FREE, आपके डिवाइस पर चलता है
WhisperKit (iOS)	लोकल	पूरी तरह निजी	FREE, ऑन-डिवाइस
whisper.cpp & Moonshine (Android)	लोकल	पूरी तरह निजी	FREE, ऑन-डिवाइस
Browser Speech	लोकल	निजी	FREE, इन-बिल्ट
ElevenLabs Scribe	क्लाउड	सटीक (गैर-अंग्रेजी के लिए बढ़िया)	अपनी ElevenLabs API key जोड़ें
Cartesia Ink	क्लाउड	सटीक, कम विलंबता	अपनी Cartesia API key जोड़ें

लोकल विकल्प (Whisper, WhisperKit, whisper.cpp, Moonshine, Browser Speech) आपके ऑडियो को लोकल रखते हैं—कुछ भी किसी सर्वर पर नहीं भेजा जाता है। ElevenLabs और Cartesia ट्रांसक्रिप्शन के लिए ऑडियो अपने सर्वर पर भेजते हैं (आपकी API key का उपयोग करके) और उच्च सटीकता प्रदान करते हैं, विशेष रूप से गैर-अंग्रेजी भाषाओं के लिए।

इसका उपयोग करने के लिए:

कंपोज़र में माइक्रोफ़ोन आइकन पर क्लिक करें
अपना संदेश बोलें
पूरा होने पर रुकें
ट्रांसक्रिप्ट मैसेज फ़ील्ड में दिखाई देता है
यदि आवश्यक हो तो एडिट करें, फिर भेजें

पहली बार सेटअप: पहली बार जब आप ऑन-डिवाइस स्पीच मॉडल का उपयोग करते हैं, तो इसे डाउनलोड और वार्म-अप होना पड़ता है। कंपोज़र प्रगति दिखाता है ("Downloading speech model… N%", फिर "Preparing"/"Loading"), इसलिए आपके पहले माइक टैप पर एक संक्षिप्त ठहराव की उम्मीद है, यह हैंग होना नहीं है।

सिस्टम-वाइड डिक्टेशन (macOS)

macOS पर Pro ग्राहक PrivateVoice भी इंस्टॉल कर सकते हैं, जो एक अलग साथी ऐप है जो किसी भी एप्लिकेशन में डिक्टेट करने के लिए एक वैश्विक प्रेस-टू-टॉक हॉटकी जोड़ता है—न केवल Caiioo में। विवरण के लिए डेस्कटॉप डाउनलोड पेज देखें।

यह भी देखें

गोपनीयता और डेटा — वॉयस डेटा को कैसे संभाला जाता है
प्लेटफ़ॉर्म और सेटअप — डेस्कटॉप ऐप और PrivateVoice उपलब्धता
सेटिंग्स > वॉयस — अपने सेटअप के लिए वॉयस विकल्प कॉन्फ़िगर करें

This guide is maintained by the Caiioo team using Slate, our built-in editor.