এটি মূল ইংরেজি নথির একটি মেশিন অনুবাদ। এই অনুবাদ এবং মূল ইংরেজি সংস্করণের মধ্যে কোনো বিরোধ দেখা দিলে, ইংরেজি সংস্করণটিই প্রাধান্য পাবে। মূল ইংরেজি সংস্করণটি পড়ুন

ভয়েস: কথা বলুন এবং শুনুন

AI কি উত্তরগুলো জোরে পড়ে শোনাক তা চান? অথবা টাইপ করার বদলে বার্তাগুলো মুখে বলতে চান? Caiioo ভয়েস ইনপুট এবং আউটপুট অফার করে—সবই কনফিগারেবল, যার কিছু আপনার ডিভাইসে লোকালভাবে চলে।

ইনপুট এবং আউটপুট অপশন, অটো-রিড টগল এবং প্লেব্যাক স্পিড সহ ভয়েস সেটিংস

Voice Output (Text-to-Speech)

AI-এর উত্তরগুলো উচ্চস্বরে শুনুন। নিচের অপশনগুলো থেকে বেছে নিন:

অপশন	ধরন	গুণমান	সেটআপ
Browser Voices	লোকাল	সাধারণ	ফ্রি, কোনো সেটআপ প্রয়োজন নেই
Kokoro	লোকাল	উন্নত	ফ্রি, আপনার ডিভাইসে চলে
Gemini 3.1 Flash TTS	ক্লাউড	স্বাভাবিক	OpenRouter API key যোগ করুন
ElevenLabs	ক্লাউড	প্রিমিয়াম	আপনার API key যোগ করুন
Cartesia (Sonic 3.5)	ক্লাউড	প্রিমিয়াম	আপনার API key যোগ করুন
Resemble.ai	ক্লাউড	চমৎকার (ভয়েস ক্লোনিং)	আপনার API key যোগ করুন

Kokoro ডাউনলোড সাইজ: Kokoro মডেলটি দুটি ভেরিয়েন্টে আসে এবং আপনার প্ল্যাটফর্মের ওপর ভিত্তি করে সেটি ডাউনলোড হয়। macOS এবং iOS-এ ছোট আকারের INT8-quantized মডেল (~88 MB) লোড হয়, যেখানে এক্সটেনশন/ব্রাউজার বড় আকারের ফুল-প্রিসিশন WebGPU বিল্ড (~330 MB) ব্যবহার করে। এটি শুধুমাত্র একবারই ডাউনলোড করতে হয়।

প্ল্যাটফর্ম নোট:

iOS নেটিভ Kokoro (v0.9.720+): এটি WebView-এর পরিবর্তে OnnxRuntime-এর মাধ্যমে iOS হোস্ট প্রসেসে চলে, যা iPhone 13/14-এর ক্র্যাশ হওয়ার সমস্যা সমাধান করে।
macOS Kokoro: এটি ডেস্কটপ হেল্পার প্রসেসের মাধ্যমে বাক্য-বাই-বাক্য স্ট্রিম করে (প্লে বাটন চাপার প্রায় ১ সেকেন্ডের মধ্যে)।
Gemini TTS (v0.9.723+): OpenRouter-এর মাধ্যমে — এখন বাক্য-বাই-বাক্য প্লে হয়, তাই পুরো উত্তরের সিন্থেসাইজ হওয়ার জন্য অপেক্ষা না করে প্রথম বাক্যের পরেই অডিও শুরু হয়।
Cartesia (v0.9.723+): একটি মাত্র API key দিয়ে Sonic 3.5 (আউটপুট) এবং Ink (ইনপুট) উভয়ই চালানো যায়। এতে কোনো ডিফল্ট ভয়েস নেই—এটি চালু করার আগে Settings > Voice থেকে একটি ভয়েস বেছে নিন।

প্লেব্যাক স্পিড: স্পিড স্লাইডার (0.5×–2.0×) ElevenLabs (0.7–1.2× এর মধ্যে সীমাবদ্ধ) এবং Cartesia (0.6–1.5× এর মধ্যে সীমাবদ্ধ)-এর ক্ষেত্রে প্রোভাইডার দ্বারা প্রয়োগ করা হয়। ব্রাউজার ভয়েস এবং Kokoro লোকাললি স্পিড পরিবর্তন করে; Resemble.ai এবং Gemini-তে কোনো স্পিড কন্ট্রোল নেই এবং এগুলো সবসময় স্বাভাবিক গতিতে প্লে হয়।

এটি চালু করতে:

Settings > Voice-এ যান
একটি text-to-speech অপশন বেছে নিন
আপনি যদি চান AI স্বয়ংক্রিয়ভাবে পড়ুক, তবে "Auto-read responses" টগলটি অন করুন
আপনার পছন্দমতো প্লেব্যাক স্পিড অ্যাডজাস্ট করুন

প্লেব্যাক ব্যর্থ হলে: ভয়েস এররগুলো এখন সাইলেন্টলি ফেইল হওয়ার পরিবর্তে টোস্ট মেসেজ হিসেবে প্রদর্শিত হয়—তাই API key না থাকলে বা ভুল হলে, অথবা নির্বাচিত মডেলের সাথে ভয়েস সামঞ্জস্যপূর্ণ না হলে (যা Resemble.ai এবং Cartesia-এর ক্ষেত্রে সাধারণ), এটি আপনাকে ঠিক কী সমাধান করতে হবে তা জানিয়ে দেয়।

লোকাল বনাম ক্লাউড: ব্রাউজার ভয়েস এবং Kokoro আপনার ডিভাইস থেকে কোনো তথ্য বাইরে পাঠায় না। Gemini, ElevenLabs, Cartesia, এবং Resemble.ai অডিও জেনারেট করার জন্য তাদের সার্ভারে টেক্সট পাঠায় (আপনার API keys ব্যবহার করে)। বিস্তারিত জানতে Privacy & Data দেখুন।

ভয়েস খরচ (TTS + STT) কনভারসেশনে voice_cost হিসেবে যুক্ত হয়, যা ওয়ান-শট পাথের সাথে সামঞ্জস্যপূর্ণ।

ভয়েস ইনপুট (স্পিচ-টু-টেক্সট)

টাইপ করার পরিবর্তে আপনার মেসেজগুলো মুখে বলুন। রেকর্ডিং শুরু করতে কম্পোজারে মাইক্রোফোন আইকনে ক্লিক করুন। Caiioo আপনি যা বলছেন তা ট্রান্সক্রাইব করবে এবং মেসেজ ফিল্ডে বসিয়ে দেবে।

কীভাবে ট্রান্সক্রাইব হবে তা বেছে নিন:

অপশন	ধরন	গোপনীয়তা	সেটআপ
Whisper (Browser)	লোকাল	সম্পূর্ণ ব্যক্তিগত	ফ্রি, আপনার ডিভাইসে চলে
WhisperKit (iOS)	লোকাল	সম্পূর্ণ ব্যক্তিগত	ফ্রি, অন-ডিভাইস
whisper.cpp & Moonshine (Android)	লোকাল	সম্পূর্ণ ব্যক্তিগত	ফ্রি, অন-ডিভাইস
Browser Speech	লোকাল	ব্যক্তিগত	ফ্রি, বিল্ট-ইন
ElevenLabs Scribe	ক্লাউড	নির্ভুল (ইংরেজি বাদে অন্য ভাষার জন্য ভালো)	আপনার ElevenLabs API key যোগ করুন
Cartesia Ink	ক্লাউড	নির্ভুল, কম ল্যাটেন্সি	আপনার Cartesia API key যোগ করুন

লোকাল অপশনগুলো (Whisper, WhisperKit, whisper.cpp, Moonshine, Browser Speech) আপনার অডিও লোকাল রাখে—কোনো সার্ভারে কিছু পাঠানো হয় না। ElevenLabs এবং Cartesia ট্রান্সক্রিপশনের জন্য তাদের সার্ভারে অডিও পাঠায় (আপনার API key ব্যবহার করে) এবং উচ্চতর নির্ভুলতা প্রদান করে, বিশেষ করে ইংরেজি বাদে অন্য ভাষার জন্য।

এটি ব্যবহার করতে: ১. কম্পোজারে মাইক্রোফোন আইকনে ক্লিক করুন ২. আপনার মেসেজটি বলুন ৩. বলা শেষ হলে থামুন ৪. ট্রান্সক্রিপ্টটি মেসেজ ফিল্ডে প্রদর্শিত হবে ৫. প্রয়োজন হলে এডিট করুন, তারপর পাঠান

প্রথমবার সেটআপ: প্রথমবার অন-ডিভাইস স্পিচ মডেল ব্যবহার করার সময় এটি ডাউনলোড এবং প্রস্তুত হতে হয়। কম্পোজার এর অগ্রগতি দেখায় ("Downloading speech model… N%", তারপর "Preparing"/"Loading"), তাই প্রথমবার মাইক্রোফোন ট্যাপ করার সময় সামান্য বিরতি স্বাভাবিক, এটি হ্যাং হওয়া নয়।

সিস্টেম-ওয়াইড ডিক্টেশন (macOS)

macOS-এ Pro সাবস্ক্রাইবাররা PrivateVoice ইনস্টল করতে পারেন, যা একটি আলাদা কম্প্যানিয়ন অ্যাপ। এটি শুধুমাত্র Caiioo নয়, যেকোনো অ্যাপ্লিকেশনে ডিক্টেট করার জন্য একটি গ্লোবাল প্রেস-টু-টক হটকি যোগ করে। বিস্তারিত জানতে ডেস্কটপ ডাউনলোড পেজ দেখুন।

আরও দেখুন

গোপনীয়তা এবং ডেটা — ভয়েস ডেটা কীভাবে পরিচালনা করা হয়
প্ল্যাটফর্ম এবং সেটআপ — ডেস্কটপ অ্যাপ এবং PrivateVoice-এর প্রাপ্যতা
Settings > Voice — আপনার সেটআপের জন্য ভয়েস বিকল্পগুলি কনফিগার করুন

This guide is maintained by the Caiioo team using Slate, our built-in editor.