Niniejszy dokument jest automatycznym tłumaczeniem oryginału w języku angielskim. W przypadku jakichkolwiek rozbieżności między tym tłumaczeniem a oryginalną wersją angielską, wersja angielska jest rozstrzygająca. Przeczytaj oryginał w języku angielskim

Głos: Mów i słuchaj

Chcesz, aby AI czytała odpowiedzi na głos? A może wolisz dyktować wiadomości zamiast pisać? Caiioo oferuje wejście i wyjście głosowe — wszystko konfigurowalne, niektóre opcje działają lokalnie na Twoim urządzeniu.

Ustawienia głosu z opcjami wejścia i wyjścia, przełącznikiem automatycznego czytania i prędkością odtwarzania

Wyjście głosowe (Text-to-Speech)

Pozwól AI odczytywać odpowiedzi na głos. Wybierz spośród:

Opcja	Typ	Jakość	Konfiguracja
Głosy przeglądarki	Lokalny	Podstawowa	Bezpłatne, brak konfiguracji
Kokoro	Lokalny	Wysoka	Bezpłatne, działa na Twoim urządzeniu
Gemini 3.1 Flash TTS	Chmura	Naturalna	Dodaj klucz API OpenRouter
ElevenLabs	Chmura	Premium	Dodaj swój klucz API
Cartesia (Sonic 3.5)	Chmura	Premium	Dodaj swój klucz API
Resemble.ai	Chmura	Doskonała (klonowanie głosu)	Dodaj swój klucz API

Rozmiar pobierania Kokoro: Model Kokoro jest dostarczany w dwóch wariantach, a to, który zostanie pobrany, zależy od Twojej platformy. macOS i iOS ładują mniejszy model kwantyzowany INT8 (~88 MB), podczas gdy rozszerzenie/przeglądarka korzysta z większej kompilacji WebGPU o pełnej precyzji (~330 MB). Jest to pobieranie jednorazowe.

Uwagi dotyczące platform:

iOS natywne Kokoro (v0.9.720+): Działa w procesie hosta iOS poprzez OnnxRuntime zamiast WebView, co naprawia awarie na iPhone 13/14.
macOS Kokoro: Przesyła strumieniowo zdanie po zdaniu (w ciągu ~1 s od naciśnięcia przycisku odtwarzania) przez proces pomocniczy pulpitu.
Gemini TTS (v0.9.723+): Przez OpenRouter — teraz odtwarza zdanie po zdaniu, więc dźwięk zaczyna się po pierwszym zdaniu, zamiast czekać na syntezę całej odpowiedzi.
Cartesia (v0.9.723+): Jeden klucz API obsługuje zarówno Sonic 3.5 (wyjście), jak i Ink (wejście). Brak domyślnego głosu — wybierz jeden w Settings > Voice przed jego włączeniem.

Prędkość odtwarzania: Suwak prędkości (0,5×–2,0×) jest stosowany przez dostawcę w przypadku ElevenLabs (ograniczony do 0,7–1,2×) oraz Cartesia (ograniczony do 0,6–1,5×). Głosy przeglądarki i Kokoro przyspieszają lokalnie; Resemble.ai i Gemini nie posiadają kontroli prędkości i zawsze odtwarzają w normalnym tempie.

Aby włączyć:

Przejdź do Settings > Voice
Wybierz opcję text-to-speech
Przełącz "Auto-read responses", jeśli chcesz, aby AI czytało automatycznie
Dostosuj prędkość odtwarzania według uznania

Jeśli odtwarzanie się nie powiedzie: Błędy głosowe pojawiają się teraz jako powiadomienia typu toast, zamiast cichego błędu — więc brakujący lub nieprawidłowy klucz API, lub głos niekompatybilny z wybranym modelem (częste w przypadku Resemble.ai i Cartesia), wskaże Ci dokładnie, co należy naprawić.

Lokalnie vs Chmura: Głosy przeglądarki i Kokoro nigdy nie wysyłają niczego poza Twoje urządzenie. Gemini, ElevenLabs, Cartesia i Resemble.ai wysyłają tekst na swoje serwery (używając Twoich kluczy API) w celu wygenerowania dźwięku. Szczegóły znajdziesz w Privacy & Data.

Koszty głosowe (TTS + STT) są sumowane jako voice_cost w konwersacji, zgodnie ze ścieżką one-shot.

Wejście głosowe (Speech-to-Text)

Dyktuj wiadomości zamiast pisać. Kliknij ikonę mikrofonu w edytorze, aby rozpocząć nagrywanie. Caiioo dokona transkrypcji Twoich słów i wstawi je do pola wiadomości.

Wybierz sposób transkrypcji:

Opcja	Typ	Prywatność	Konfiguracja
Whisper (Przeglądarka)	Lokalny	W pełni prywatny	FREE, działa na Twoim urządzeniu
WhisperKit (iOS)	Lokalny	W pełni prywatny	FREE, na urządzeniu
whisper.cpp & Moonshine (Android)	Lokalny	W pełni prywatny	FREE, na urządzeniu
Mowa przeglądarki	Lokalny	Prywatny	FREE, wbudowany
ElevenLabs Scribe	Chmura	Dokładny (świetny dla języków innych niż ang.)	Dodaj swój klucz API ElevenLabs
Cartesia Ink	Chmura	Dokładny, niskie opóźnienia	Dodaj swój klucz API Cartesia

Opcje lokalne (Whisper, WhisperKit, whisper.cpp, Moonshine, Mowa przeglądarki) przechowują dźwięk lokalnie — nic nie jest wysyłane na serwer. ElevenLabs i Cartesia wysyłają dźwięk na swoje serwery w celu transkrypcji (używając Twojego klucza API) i oferują wyższą dokładność, szczególnie dla języka polskiego i innych języków poza angielskim.

Jak używać:

Kliknij ikonę mikrofonu w edytorze
Wypowiedz wiadomość
Zatrzymaj, gdy skończysz
Transkrypcja pojawi się w polu wiadomości
Edytuj w razie potrzeby, a następnie wyślij

Pierwsza konfiguracja: Przy pierwszym użyciu modelu mowy na urządzeniu musi on zostać pobrany i przygotowany. Edytor pokazuje postęp („Pobieranie modelu mowy… N%”, następnie „Przygotowywanie”/„Ładowanie”), więc krótka pauza przy pierwszym dotknięciu mikrofonu jest normalna.

Dyktowanie systemowe (macOS)

Subskrybenci Pro na macOS mogą również zainstalować PrivateVoice, osobną aplikację towarzyszącą, która dodaje globalny skrót klawiszowy „naciśnij i mów” do dyktowania w dowolnej aplikacji — nie tylko w Caiioo. Zobacz stronę pobierania wersji desktopowej po szczegóły.

Zobacz także

Prywatność i dane — Jak przetwarzane są dane głosowe
Platforma i konfiguracja — Dostępność aplikacji desktopowej i PrivateVoice
Ustawienia > Głos — Skonfiguruj opcje głosowe dla swojej konfiguracji

This guide is maintained by the Caiioo team using Slate, our built-in editor.