یہ اصل انگریزی دستاویز کا مشینی ترجمہ ہے۔ اس ترجمے اور اصل انگریزی ورژن کے درمیان کسی بھی تضاد کی صورت میں، انگریزی ورژن ہی معتبر تصور ہوگا۔ اصل انگریزی ورژن پڑھیں


آواز: بولیں اور سنیں

کیا آپ چاہتے ہیں کہ AI جوابات بلند آواز میں پڑھے؟ یا ٹائپ کرنے کے بجائے پیغامات بول کر لکھوائیں؟ Caiioo صوتی ان پٹ اور آؤٹ پٹ پیش کرتا ہے—سب کچھ قابلِ ترتیب ہے، کچھ آپ کے آلے پر مقامی طور پر چلتے ہیں۔

ان پٹ اور آؤٹ پٹ کے اختیارات، آٹو ریڈ ٹوگل، اور پلے بیک اسپیڈ کے ساتھ صوتی ترتیبات

Voice Output (Text-to-Speech)

AI سے اس کے جوابات بلند آواز میں پڑھوائیں۔ درج ذیل میں سے انتخاب کریں:

آپشن قسم کوالٹی سیٹ اپ
Browser Voices مقامی (Local) بنیادی مفت، کوئی سیٹ اپ نہیں
Kokoro مقامی (Local) اعلیٰ مفت، آپ کے ڈیوائس پر چلتا ہے
Gemini 3.1 Flash TTS کلاؤڈ قدرتی OpenRouter API key شامل کریں
ElevenLabs کلاؤڈ پریمیم اپنی API key شامل کریں
Cartesia (Sonic 3.5) کلاؤڈ پریمیم اپنی API key شامل کریں
Resemble.ai کلاؤڈ بہترین (وائس کلوننگ) اپنی API key شامل کریں

Kokoro ڈاؤن لوڈ سائز: Kokoro ماڈل دو مختلف اقسام میں آتا ہے، اور اس کا انحصار آپ کے پلیٹ فارم پر ہے کہ کون سا ڈاؤن لوڈ ہوتا ہے۔ macOS اور iOS چھوٹے INT8-quantized ماڈل (~88 MB) کو لوڈ کرتے ہیں، جبکہ ایکسٹینشن/براؤزر بڑے فل-پریسیژن WebGPU بلڈ (~330 MB) کا استعمال کرتا ہے۔ یہ صرف ایک بار ڈاؤن لوڈ ہوتا ہے۔

پلیٹ فارم نوٹس:

  • iOS نیٹو Kokoro (v0.9.720+): یہ WebView کے بجائے OnnxRuntime کے ذریعے iOS ہوسٹ پروسیس میں چلتا ہے، جس سے iPhone 13/14 کے کریش ہونے کے مسائل حل ہو گئے ہیں۔
  • macOS Kokoro: یہ ڈیسک ٹاپ ہیلپر پروسیس کے ذریعے جملہ بہ جملہ (پلے دبانے کے تقریباً 1 سیکنڈ کے اندر) اسٹریم کرتا ہے۔
  • Gemini TTS (v0.9.723+): OpenRouter کے ذریعے — اب جملہ بہ جملہ چلتا ہے، لہذا آڈیو پہلے جملے کے بعد ہی شروع ہو جاتی ہے بجائے اس کے کہ پورے جواب کے تیار ہونے کا انتظار کیا جائے۔
  • Cartesia (v0.9.723+): ایک ہی API key، Sonic 3.5 (آؤٹ پٹ) اور Ink (ان پٹ) دونوں کو چلاتی ہے۔ اس میں کوئی ڈیفالٹ آواز نہیں ہے—اسے فعال کرنے سے پہلے Settings > Voice میں جا کر ایک آواز منتخب کریں۔

پلے بیک کی رفتار: اسپیڈ سلائیڈر (0.5×–2.0×) ElevenLabs (جو 0.7–1.2× تک محدود ہے) اور Cartesia (جو 0.6–1.5× تک محدود ہے) کے لیے فراہم کنندہ کی طرف سے لاگو کیا جاتا ہے۔ براؤزر کی آوازیں اور Kokoro مقامی طور پر رفتار بڑھاتے ہیں؛ Resemble.ai اور Gemini میں رفتار کنٹرول کرنے کی سہولت نہیں ہے اور وہ ہمیشہ نارمل رفتار پر چلتے ہیں۔

اسے فعال کرنے کے لیے:

  1. Settings > Voice پر جائیں
  2. ایک text-to-speech آپشن منتخب کریں
  3. اگر آپ چاہتے ہیں کہ AI خود بخود پڑھے تو "Auto-read responses" کو آن کر دیں
  4. اگر چاہیں تو پلے بیک کی رفتار ایڈجسٹ کریں

اگر پلے بیک ناکام ہو جائے: آواز کی خرابیاں اب خاموشی سے ناکام ہونے کے بجائے ایک ٹوسٹ (نوٹیفکیشن) کے طور پر ظاہر ہوتی ہیں—چنانچہ غائب یا غلط API key، یا ایسی آواز جو منتخب کردہ ماڈل کے ساتھ مطابقت نہیں رکھتی (جو عام طور پر Resemble.ai اور Cartesia کے ساتھ ہوتا ہے)، آپ کو واضح طور پر بتاتی ہے کہ کیا ٹھیک کرنا ہے۔

مقامی بمقابلہ کلاؤڈ: براؤزر کی آوازیں اور Kokoro کبھی بھی آپ کے ڈیوائس سے باہر کچھ نہیں بھیجتے۔ Gemini، ElevenLabs، Cartesia، اور Resemble.ai آڈیو تیار کرنے کے لیے (آپ کی API keys استعمال کرتے ہوئے) متن اپنے سرورز پر بھیجتے ہیں۔ تفصیلات کے لیے Privacy & Data دیکھیں۔

آواز کے اخراجات (TTS + STT) گفتگو پر voice_cost کے طور پر جمع ہوتے ہیں، جو ون-شاٹ پاتھ کے مطابق ہوتے ہیں۔

صوتی ان پٹ (Speech-to-Text)

ٹائپ کرنے کے بجائے اپنے پیغامات بول کر لکھوائیں۔ ریکارڈنگ شروع کرنے کے لیے کمپوزر میں مائیکروفون آئیکن پر کلک کریں۔ Caiioo آپ کی بات کو تحریر میں بدل کر میسج فیلڈ میں ڈال دے گا۔

انتخاب کریں کہ یہ کیسے تحریر میں بدلے:

آپشن قسم رازداری سیٹ اپ
Whisper (براؤزر) مقامی مکمل نجی مفت، آپ کے آلے پر چلتا ہے
WhisperKit (iOS) مقامی مکمل نجی مفت، آلے پر
whisper.cpp & Moonshine (Android) مقامی مکمل نجی مفت، آلے پر
Browser Speech مقامی نجی مفت، بلٹ ان
ElevenLabs Scribe کلاؤڈ درست (غیر انگریزی کے لیے بہترین) اپنی ElevenLabs API key شامل کریں
Cartesia Ink کلاؤڈ درست، کم تاخیر اپنی Cartesia API key شامل کریں

مقامی اختیارات (Whisper, WhisperKit, whisper.cpp, Moonshine, Browser Speech) آپ کی آڈیو کو مقامی رکھتے ہیں—کچھ بھی کسی سرور پر نہیں بھیجا جاتا۔ ElevenLabs اور Cartesia آڈیو کو تحریر میں بدلنے کے لیے اپنے سرورز پر بھیجتے ہیں (آپ کی API key استعمال کرتے ہوئے) اور زیادہ درستگی فراہم کرتے ہیں، خاص طور پر غیر انگریزی زبانوں کے لیے۔

استعمال کرنے کے لیے:

  1. کمپوزر میں مائیکروفون آئیکن پر کلک کریں
  2. اپنا پیغام بولیں
  3. ختم ہونے پر روک دیں
  4. تحریر میسج فیلڈ میں ظاہر ہو جائے گی
  5. اگر ضرورت ہو تو ترمیم کریں، پھر بھیجیں

پہلی بار سیٹ اپ: جب آپ پہلی بار آلے پر موجود اسپیچ ماڈل استعمال کرتے ہیں، تو اسے ڈاؤن لوڈ اور تیار ہونا پڑتا ہے۔ کمپوزر پیش رفت دکھاتا ہے ("Downloading speech model… N%"، پھر "Preparing"/"Loading")، لہذا مائیک پر پہلی بار کلک کرنے پر تھوڑا سا وقفہ متوقع ہے، یہ ایپ کا رکنا نہیں ہے۔

سسٹم وائڈ ڈکٹیشن (macOS)

macOS پر Pro سبسکرائبرز PrivateVoice بھی انسٹال کر سکتے ہیں، جو ایک علیحدہ ساتھی ایپ ہے جو کسی بھی ایپلی کیشن میں — نہ صرف Caiioo میں — ڈکٹیشن کے لیے ایک عالمی پریس ٹو ٹاک (press-to-talk) ہاٹ کی (hotkey) شامل کرتی ہے۔ تفصیلات کے لیے ڈیسک ٹاپ ڈاؤن لوڈ پیج دیکھیں۔

یہ بھی دیکھیں

  • Privacy & Data — وائس ڈیٹا کو کیسے ہینڈل کیا جاتا ہے
  • Platform & Setup — ڈیسک ٹاپ ایپ اور PrivateVoice کی دستیابی
  • Settings > Voice — اپنے سیٹ اپ کے لیے وائس آپشنز کنفیگر کریں

This guide is maintained by the Caiioo team using Slate, our built-in editor.