Niniejszy dokument jest automatycznym tłumaczeniem oryginału w języku angielskim. W przypadku jakichkolwiek rozbieżności między tym tłumaczeniem a oryginalną wersją angielską, wersja angielska jest rozstrzygająca. Przeczytaj oryginał w języku angielskim


Głos: Mów i słuchaj

Chcesz, aby AI czytała odpowiedzi na głos? A może wolisz dyktować wiadomości zamiast pisać? Caiioo oferuje wejście i wyjście głosowe — wszystko konfigurowalne, niektóre opcje działają lokalnie na Twoim urządzeniu.

Ustawienia głosu z opcjami wejścia i wyjścia, przełącznikiem automatycznego czytania i prędkością odtwarzania

Wyjście głosowe (Text-to-Speech)

Pozwól AI odczytywać odpowiedzi na głos. Wybierz spośród:

Opcja Typ Jakość Konfiguracja
Głosy przeglądarki Lokalny Podstawowa Bezpłatne, brak konfiguracji
Kokoro Lokalny Wysoka Bezpłatne, działa na Twoim urządzeniu
Gemini 3.1 Flash TTS Chmura Naturalna Dodaj klucz API OpenRouter
ElevenLabs Chmura Premium Dodaj swój klucz API
Cartesia (Sonic 3.5) Chmura Premium Dodaj swój klucz API
Resemble.ai Chmura Doskonała (klonowanie głosu) Dodaj swój klucz API

Rozmiar pobierania Kokoro: Model Kokoro jest dostarczany w dwóch wariantach, a to, który zostanie pobrany, zależy od Twojej platformy. macOS i iOS ładują mniejszy model kwantyzowany INT8 (~88 MB), podczas gdy rozszerzenie/przeglądarka korzysta z większej kompilacji WebGPU o pełnej precyzji (~330 MB). Jest to pobieranie jednorazowe.

Uwagi dotyczące platform:

  • iOS natywne Kokoro (v0.9.720+): Działa w procesie hosta iOS poprzez OnnxRuntime zamiast WebView, co naprawia awarie na iPhone 13/14.
  • macOS Kokoro: Przesyła strumieniowo zdanie po zdaniu (w ciągu ~1 s od naciśnięcia przycisku odtwarzania) przez proces pomocniczy pulpitu.
  • Gemini TTS (v0.9.723+): Przez OpenRouter — teraz odtwarza zdanie po zdaniu, więc dźwięk zaczyna się po pierwszym zdaniu, zamiast czekać na syntezę całej odpowiedzi.
  • Cartesia (v0.9.723+): Jeden klucz API obsługuje zarówno Sonic 3.5 (wyjście), jak i Ink (wejście). Brak domyślnego głosu — wybierz jeden w Settings > Voice przed jego włączeniem.

Prędkość odtwarzania: Suwak prędkości (0,5×–2,0×) jest stosowany przez dostawcę w przypadku ElevenLabs (ograniczony do 0,7–1,2×) oraz Cartesia (ograniczony do 0,6–1,5×). Głosy przeglądarki i Kokoro przyspieszają lokalnie; Resemble.ai i Gemini nie posiadają kontroli prędkości i zawsze odtwarzają w normalnym tempie.

Aby włączyć:

  1. Przejdź do Settings > Voice
  2. Wybierz opcję text-to-speech
  3. Przełącz "Auto-read responses", jeśli chcesz, aby AI czytało automatycznie
  4. Dostosuj prędkość odtwarzania według uznania

Jeśli odtwarzanie się nie powiedzie: Błędy głosowe pojawiają się teraz jako powiadomienia typu toast, zamiast cichego błędu — więc brakujący lub nieprawidłowy klucz API, lub głos niekompatybilny z wybranym modelem (częste w przypadku Resemble.ai i Cartesia), wskaże Ci dokładnie, co należy naprawić.

Lokalnie vs Chmura: Głosy przeglądarki i Kokoro nigdy nie wysyłają niczego poza Twoje urządzenie. Gemini, ElevenLabs, Cartesia i Resemble.ai wysyłają tekst na swoje serwery (używając Twoich kluczy API) w celu wygenerowania dźwięku. Szczegóły znajdziesz w Privacy & Data.

Koszty głosowe (TTS + STT) są sumowane jako voice_cost w konwersacji, zgodnie ze ścieżką one-shot.

Wejście głosowe (Speech-to-Text)

Dyktuj wiadomości zamiast pisać. Kliknij ikonę mikrofonu w edytorze, aby rozpocząć nagrywanie. Caiioo dokona transkrypcji Twoich słów i wstawi je do pola wiadomości.

Wybierz sposób transkrypcji:

Opcja Typ Prywatność Konfiguracja
Whisper (Przeglądarka) Lokalny W pełni prywatny FREE, działa na Twoim urządzeniu
WhisperKit (iOS) Lokalny W pełni prywatny FREE, na urządzeniu
whisper.cpp & Moonshine (Android) Lokalny W pełni prywatny FREE, na urządzeniu
Mowa przeglądarki Lokalny Prywatny FREE, wbudowany
ElevenLabs Scribe Chmura Dokładny (świetny dla języków innych niż ang.) Dodaj swój klucz API ElevenLabs
Cartesia Ink Chmura Dokładny, niskie opóźnienia Dodaj swój klucz API Cartesia

Opcje lokalne (Whisper, WhisperKit, whisper.cpp, Moonshine, Mowa przeglądarki) przechowują dźwięk lokalnie — nic nie jest wysyłane na serwer. ElevenLabs i Cartesia wysyłają dźwięk na swoje serwery w celu transkrypcji (używając Twojego klucza API) i oferują wyższą dokładność, szczególnie dla języka polskiego i innych języków poza angielskim.

Jak używać:

  1. Kliknij ikonę mikrofonu w edytorze
  2. Wypowiedz wiadomość
  3. Zatrzymaj, gdy skończysz
  4. Transkrypcja pojawi się w polu wiadomości
  5. Edytuj w razie potrzeby, a następnie wyślij

Pierwsza konfiguracja: Przy pierwszym użyciu modelu mowy na urządzeniu musi on zostać pobrany i przygotowany. Edytor pokazuje postęp („Pobieranie modelu mowy… N%”, następnie „Przygotowywanie”/„Ładowanie”), więc krótka pauza przy pierwszym dotknięciu mikrofonu jest normalna.

Dyktowanie systemowe (macOS)

Subskrybenci Pro na macOS mogą również zainstalować PrivateVoice, osobną aplikację towarzyszącą, która dodaje globalny skrót klawiszowy „naciśnij i mów” do dyktowania w dowolnej aplikacji — nie tylko w Caiioo. Zobacz stronę pobierania wersji desktopowej po szczegóły.

Zobacz także


This guide is maintained by the Caiioo team using Slate, our built-in editor.