Niniejszy dokument jest automatycznym tłumaczeniem oryginału w języku angielskim. W przypadku jakichkolwiek rozbieżności między tym tłumaczeniem a oryginalną wersją angielską, wersja angielska jest rozstrzygająca. Przeczytaj oryginał w języku angielskim
Głos: Mów i słuchaj
Chcesz, aby AI czytała odpowiedzi na głos? A może wolisz dyktować wiadomości zamiast pisać? Caiioo oferuje wejście i wyjście głosowe — wszystko konfigurowalne, niektóre opcje działają lokalnie na Twoim urządzeniu.

Wyjście głosowe (Text-to-Speech)
Pozwól AI odczytywać odpowiedzi na głos. Wybierz spośród:
| Opcja | Typ | Jakość | Konfiguracja |
|---|---|---|---|
| Głosy przeglądarki | Lokalny | Podstawowa | Bezpłatne, brak konfiguracji |
| Kokoro | Lokalny | Wysoka | Bezpłatne, działa na Twoim urządzeniu |
| Gemini 3.1 Flash TTS | Chmura | Naturalna | Dodaj klucz API OpenRouter |
| ElevenLabs | Chmura | Premium | Dodaj swój klucz API |
| Cartesia (Sonic 3.5) | Chmura | Premium | Dodaj swój klucz API |
| Resemble.ai | Chmura | Doskonała (klonowanie głosu) | Dodaj swój klucz API |
Rozmiar pobierania Kokoro: Model Kokoro jest dostarczany w dwóch wariantach, a to, który zostanie pobrany, zależy od Twojej platformy. macOS i iOS ładują mniejszy model kwantyzowany INT8 (~88 MB), podczas gdy rozszerzenie/przeglądarka korzysta z większej kompilacji WebGPU o pełnej precyzji (~330 MB). Jest to pobieranie jednorazowe.
Uwagi dotyczące platform:
- iOS natywne Kokoro (v0.9.720+): Działa w procesie hosta iOS poprzez OnnxRuntime zamiast WebView, co naprawia awarie na iPhone 13/14.
- macOS Kokoro: Przesyła strumieniowo zdanie po zdaniu (w ciągu ~1 s od naciśnięcia przycisku odtwarzania) przez proces pomocniczy pulpitu.
- Gemini TTS (v0.9.723+): Przez OpenRouter — teraz odtwarza zdanie po zdaniu, więc dźwięk zaczyna się po pierwszym zdaniu, zamiast czekać na syntezę całej odpowiedzi.
- Cartesia (v0.9.723+): Jeden klucz API obsługuje zarówno Sonic 3.5 (wyjście), jak i Ink (wejście). Brak domyślnego głosu — wybierz jeden w Settings > Voice przed jego włączeniem.
Prędkość odtwarzania: Suwak prędkości (0,5×–2,0×) jest stosowany przez dostawcę w przypadku ElevenLabs (ograniczony do 0,7–1,2×) oraz Cartesia (ograniczony do 0,6–1,5×). Głosy przeglądarki i Kokoro przyspieszają lokalnie; Resemble.ai i Gemini nie posiadają kontroli prędkości i zawsze odtwarzają w normalnym tempie.
Aby włączyć:
- Przejdź do Settings > Voice
- Wybierz opcję text-to-speech
- Przełącz "Auto-read responses", jeśli chcesz, aby AI czytało automatycznie
- Dostosuj prędkość odtwarzania według uznania
Jeśli odtwarzanie się nie powiedzie: Błędy głosowe pojawiają się teraz jako powiadomienia typu toast, zamiast cichego błędu — więc brakujący lub nieprawidłowy klucz API, lub głos niekompatybilny z wybranym modelem (częste w przypadku Resemble.ai i Cartesia), wskaże Ci dokładnie, co należy naprawić.
Lokalnie vs Chmura: Głosy przeglądarki i Kokoro nigdy nie wysyłają niczego poza Twoje urządzenie. Gemini, ElevenLabs, Cartesia i Resemble.ai wysyłają tekst na swoje serwery (używając Twoich kluczy API) w celu wygenerowania dźwięku. Szczegóły znajdziesz w Privacy & Data.
Koszty głosowe (TTS + STT) są sumowane jako voice_cost w konwersacji, zgodnie ze ścieżką one-shot.
Wejście głosowe (Speech-to-Text)
Dyktuj wiadomości zamiast pisać. Kliknij ikonę mikrofonu w edytorze, aby rozpocząć nagrywanie. Caiioo dokona transkrypcji Twoich słów i wstawi je do pola wiadomości.
Wybierz sposób transkrypcji:
| Opcja | Typ | Prywatność | Konfiguracja |
|---|---|---|---|
| Whisper (Przeglądarka) | Lokalny | W pełni prywatny | FREE, działa na Twoim urządzeniu |
| WhisperKit (iOS) | Lokalny | W pełni prywatny | FREE, na urządzeniu |
| whisper.cpp & Moonshine (Android) | Lokalny | W pełni prywatny | FREE, na urządzeniu |
| Mowa przeglądarki | Lokalny | Prywatny | FREE, wbudowany |
| ElevenLabs Scribe | Chmura | Dokładny (świetny dla języków innych niż ang.) | Dodaj swój klucz API ElevenLabs |
| Cartesia Ink | Chmura | Dokładny, niskie opóźnienia | Dodaj swój klucz API Cartesia |
Opcje lokalne (Whisper, WhisperKit, whisper.cpp, Moonshine, Mowa przeglądarki) przechowują dźwięk lokalnie — nic nie jest wysyłane na serwer. ElevenLabs i Cartesia wysyłają dźwięk na swoje serwery w celu transkrypcji (używając Twojego klucza API) i oferują wyższą dokładność, szczególnie dla języka polskiego i innych języków poza angielskim.
Jak używać:
- Kliknij ikonę mikrofonu w edytorze
- Wypowiedz wiadomość
- Zatrzymaj, gdy skończysz
- Transkrypcja pojawi się w polu wiadomości
- Edytuj w razie potrzeby, a następnie wyślij
Pierwsza konfiguracja: Przy pierwszym użyciu modelu mowy na urządzeniu musi on zostać pobrany i przygotowany. Edytor pokazuje postęp („Pobieranie modelu mowy… N%”, następnie „Przygotowywanie”/„Ładowanie”), więc krótka pauza przy pierwszym dotknięciu mikrofonu jest normalna.
Dyktowanie systemowe (macOS)
Subskrybenci Pro na macOS mogą również zainstalować PrivateVoice, osobną aplikację towarzyszącą, która dodaje globalny skrót klawiszowy „naciśnij i mów” do dyktowania w dowolnej aplikacji — nie tylko w Caiioo. Zobacz stronę pobierania wersji desktopowej po szczegóły.
Zobacz także
- Prywatność i dane — Jak przetwarzane są dane głosowe
- Platforma i konfiguracja — Dostępność aplikacji desktopowej i PrivateVoice
- Ustawienia > Głos — Skonfiguruj opcje głosowe dla swojej konfiguracji
This guide is maintained by the Caiioo team using Slate, our built-in editor.