هذه ترجمة آلية للمستند الأصلي باللغة الإنجليزية. في حال وجود أي تعارض بين هذه الترجمة والنسخة الإنجليزية الأصلية، تُعتمد النسخة الإنجليزية. اقرأ النسخة الإنجليزية الأصلية


الصوت: تحدث واستمع

هل تريد أن يقرأ الذكاء الاصطناعي الاستجابات بصوت عالٍ؟ أو تملي الرسائل بدلاً من كتابتها؟ يقدم Caiioo إدخالاً وإخراجاً صوتياً — كلها قابلة للتكوين، وبعضها يعمل محلياً على جهازك.

إعدادات الصوت مع خيارات الإدخال والإخراج، وتبديل القراءة التلقائية، وسرعة التشغيل

مخرجات الصوت (تحويل النص إلى كلام)

اجعل الذكاء الاصطناعي يقرأ ردوده بصوت عالٍ. اختر من بين:

الخيار النوع الجودة الإعداد
أصوات المتصفح محلي أساسية مجاني، بدون إعداد
Kokoro محلي عالية مجاني، يعمل على جهازك
Gemini 3.1 Flash TTS سحابي طبيعية أضف مفتاح OpenRouter API
ElevenLabs سحابي ممتازة أضف مفتاح API الخاص بك
Cartesia (Sonic 3.5) سحابي ممتازة أضف مفتاح API الخاص بك
Resemble.ai سحابي ممتازة (استنساخ الصوت) أضف مفتاح API الخاص بك

حجم تنزيل Kokoro: يتوفر نموذج Kokoro في نسختين، ويعتمد تحميل أي منهما على منصتك. يقوم نظاما macOS و iOS بتحميل نموذج INT8-quantized الأصغر حجمًا (~88 ميجابايت)، بينما يستخدم الامتداد/المتصفح نسخة WebGPU ذات الدقة الكاملة والأكبر حجمًا (~330 ميجابايت). يتم التنزيل لمرة واحدة فقط.

ملاحظات المنصة:

  • Kokoro الأصلي لنظام iOS (الإصدار v0.9.720+): يعمل في عملية المضيف لنظام iOS عبر OnnxRuntime بدلاً من WebView، مما يعالج مشكلات التوقف المفاجئ في iPhone 13/14.
  • Kokoro لنظام macOS: يبث الصوت جملة بجملة (خلال ثانية واحدة تقريبًا من الضغط على زر التشغيل) عبر عملية المساعد لسطح المكتب.
  • Gemini TTS (الإصدار v0.9.723+): عبر OpenRouter — يعمل الآن بنظام البث جملة بجملة، لذا يبدأ الصوت بعد الجملة الأولى بدلاً من انتظار معالجة الرد بالكامل.
  • Cartesia (الإصدار v0.9.723+): مفتاح API واحد يشغل كلاً من Sonic 3.5 (للمخرجات) و Ink (للمدخلات). لا يوجد صوت افتراضي — اختر صوتًا من الإعدادات > الصوت قبل تفعيله.

سرعة التشغيل: يتم تطبيق شريط تمرير السرعة (0.5×–2.0×) من قبل المزود لكل من ElevenLabs (محدد بين 0.7–1.2×) و Cartesia (محدد بين 0.6–1.5×). تزداد سرعة أصوات المتصفح و Kokoro محليًا؛ بينما لا يتوفر التحكم في السرعة لـ Resemble.ai و Gemini ويعملان دائمًا بالمعدل الطبيعي.

لتفعيله:

  1. اذهب إلى الإعدادات > الصوت
  2. اختر أحد خيارات تحويل النص إلى كلام
  3. قم بتفعيل "قراءة الردود تلقائيًا" إذا كنت تريد أن يقرأ الذكاء الاصطناعي تلقائيًا
  4. اضبط سرعة التشغيل حسب رغبتك

في حال فشل التشغيل: تظهر أخطاء الصوت الآن كرسالة تنبيه (toast) بدلاً من الفشل الصامت — لذا فإن مفتاح API المفقود أو غير الصالح، أو الصوت غير المتوافق مع النموذج المختار (شائع مع Resemble.ai و Cartesia)، سيخبرك بالضبط بما يجب إصلاحه.

المحلي مقابل السحابي: أصوات المتصفح و Kokoro لا ترسل أي شيء خارج جهازك أبدًا. بينما تقوم خدمات Gemini و ElevenLabs و Cartesia و Resemble.ai بإرسال النص إلى خوادمها (باستخدام مفاتيح API الخاصة بك) لإنشاء الصوت. راجع الخصوصية والبيانات لمزيد من التفاصيل.

تكاليف الصوت (TTS + STT) تظهر مجمعة كـ voice_cost في المحادثة، بما يتماشى مع مسار الطلب الواحد.

الإدخال الصوتي (تحويل الكلام إلى نص)

أملِ رسائلك بدلاً من كتابتها. انقر فوق أيقونة الميكروفون في حقل الكتابة لبدء التسجيل. سيقوم Caiioo بنسخ ما تقوله ووضعه في حقل الرسالة.

اختر طريقة النسخ:

الخيار النوع الخصوصية الإعداد
Whisper (المتصفح) محلي خصوصية كاملة مجاني، يعمل على جهازك
WhisperKit (iOS) محلي خصوصية كاملة مجاني، على الجهاز
whisper.cpp & Moonshine (أندرويد) محلي خصوصية كاملة مجاني، على الجهاز
Browser Speech محلي خاص مجاني، مدمج
ElevenLabs Scribe سحابي دقيق (رائع لغير الإنجليزية) أضف مفتاح API الخاص بـ ElevenLabs
Cartesia Ink سحابي دقيق، زمن انتقال منخفض أضف مفتاح API الخاص بـ Cartesia

الخيارات المحلية (Whisper، WhisperKit، whisper.cpp، Moonshine، Browser Speech) تبقي صوتك محليًا—لا يتم إرسال أي شيء إلى أي خادم. ترسل ElevenLabs و Cartesia الصوت إلى خوادمهما للنسخ (باستخدام مفتاح API الخاص بك) وتوفر دقة أعلى، خاصة للغات غير الإنجليزية.

لاستخدامه:

  1. انقر فوق أيقونة الميكروفون في حقل الكتابة
  2. تحدث برسالتك
  3. توقف عند الانتهاء
  4. يظهر النص المنسوخ في حقل الرسالة
  5. قم بالتحرير إذا لزم الأمر، ثم أرسل

الإعداد لأول مرة: في المرة الأولى التي تستخدم فيها نموذج كلام على الجهاز، يجب تنزيله وتهيئته. يظهر حقل الكتابة التقدم ("جاري تنزيل نموذج الكلام... N%"، ثم "جاري التحضير"/"جاري التحميل")، لذا فإن توقفًا قصيرًا عند أول نقرة على الميكروفون أمر متوقع، وليس تعليقًا.

الإملاء على مستوى النظام (macOS)

يمكن لمشتركي Pro على macOS أيضاً تثبيت PrivateVoice، وهو تطبيق مرافق منفصل يضيف مفتاح اختصار عالمي للتحدث والإملاء في أي تطبيق — وليس فقط Caiioo. راجع صفحة تنزيل سطح المكتب لمزيد من التفاصيل.

انظر أيضاً


This guide is maintained by the Caiioo team using Slate, our built-in editor.