Problem

You want to let the AI use tools — browse, write files, send messages — but only after you see what it intends to do and can stop or scope the action.

Niniejszy dokument jest automatycznym tłumaczeniem oryginału w języku angielskim. W przypadku jakichkolwiek rozbieżności między tym tłumaczeniem a oryginalną wersją angielską, wersja angielska jest rozstrzygająca. Przeczytaj oryginał w języku angielskim

Kontroluj, co AI może zrobić, zanim to zrobi

Każdy dostawca agentów obiecuje „pełną autonomię!”. Kontrakt Caiioo jest odwrotny: agent opisuje, co zamierza zrobić, a Ty decydujesz, czy mu na to pozwolić — dla każdej akcji, każdej rozmowy lub na stałe. Oto jak to wygląda w praktyce.

Zanim zaczniesz

Otwórz Ustawienia > Narzędzia, aby zobaczyć, jakie narzędzia są obecnie włączone dla Twojego trybu. Wyłącz wszystko, do czego nie chcesz, aby agent miał dostęp. Zatwierdzanie dotyczy tylko włączonych narzędzi — wyłączone narzędzia nigdy nie są oferowane modelowi.

Gdy agent chce użyć narzędzia

Poproś o coś, co wymaga użycia narzędzia. „Przeszukaj sieć pod kątem ostatnich zmian w EU AI Act”, „wymień moje wydarzenia w kalendarzu na jutro”, „zapisz tę notatkę do pliku” — każde z tych poleceń sprawi, że agent zaproponuje wywołanie narzędzia.

Agent nie kontynuuje pracy samodzielnie. Okno modalne o tytule Wymagana zgoda blokuje proces i wyświetla:

Intencję — jeden wiersz opisujący własnymi słowami agenta, co próbuje zrobić. To pierwsza rzecz, na którą pada wzrok.
Nazwę narzędzia i akcję — np. googleCalendar.listEvents, fileSystem.writeFile.
Poziom ryzyka — kolorowa tarcza: zielona dla niskiego ryzyka (odczyt), bursztynowa dla zapisu, czerwona dla operacji destrukcyjnych lub finansowych. Narzędzia wysokiego ryzyka wyświetlają również baner ostrzegawczy: „To jest operacja wysokiego ryzyka. Zatwierdź tylko, jeśli rozumiesz jej skutki”.
Szczegóły — rozwijana sekcja z oczyszczonymi argumentami. Wrażliwe dane (klucze API, tokeny, hasła) są usuwane przed wyświetleniem. Przełącznik Pokaż surowy JSON wewnątrz ujawnia nienaruszone dane, jeśli chcesz zobaczyć dokładnie, co jest wysyłane.

Wybierz zakres dopasowany do ryzyka

Stopka oferuje cztery przyciski. Każdy odpowiada innej decyzji dotyczącej zaufania:

Przycisk	Co robi
Odrzuć	Blokuje tę pojedynczą akcję. Agent otrzymuje odmowę i może spróbować czegoś innego.
Zatwierdź raz	Pozwala na to konkretne wywołanie, a następnie zapyta ponownie przy kolejnym. Dobre dla zadań jednorazowych.
Zatwierdź dla konwersacji	Pozwala na wszystkie użycia tego narzędzia w bieżącym wątku. Resetuje się po rozpoczęciu nowej rozmowy. Dobre dla typowych przypadków: „Robię research przez najbliższą godzinę, pozwól agentowi swobodnie przeszukiwać sieć”.
Zawsze zatwierdzaj	Stałe, globalne uprawnienie we wszystkich rozmowach. Wyświetlane na czerwono dla narzędzi wysokiego ryzyka, aby zapobiec klikaniu z przyzwyczajenia. Dobre dla bezpiecznych narzędzi, których używasz stale (np. kalkulator).

Obserwuj postępy

Po zatwierdzeniu wywołanie narzędzia jest wykonywane i pojawia się w panelu bocznym obok konwersacji ze statusem na żywo — oczekiwanie → wykonywanie → sukces lub błąd — wraz z argumentami, z którymi faktycznie zostało uruchomione, oraz otrzymanym wynikiem. Nic nie dzieje się bez Twojej wiedzy; nic nie działa po cichu w tle.

Zatrzymaj w dowolnym momencie

Jeśli zatwierdzone narzędzie zachowuje się niewłaściwie lub konwersacja zmierza w niepożądanym kierunku, naciśnij przycisk stop w kompozytorze. Agent natychmiast przerywa pracę, oczekujące zgody są czyszczone, a wszelkie aktywne sesje przeglądarki zostają zamknięte. Żadnych osieroconych wywołań narzędzi, żadnych nieskończonych pętli.

Gdy agent przerywa pracę, aby zadać Ci pytanie

Zatwierdzanie to prośba agenta o pozwolenie. Czasami jednak agent potrzebuje danych wejściowych — nie jest pewien, którą z dwóch ścieżek wybrać, lub chce, abyś zaakceptował plan, zanim wykona kilkanaście wywołań narzędzi. W tym celu używa osobnego panelu „human-in-the-loop”, który wstrzymuje turę i pyta Cię bezpośrednio.

Panel wyświetla tytuł, propozycję wygenerowaną w formacie markdown (plan agenta, szkic lub pytanie) oraz cztery przyciski odpowiedzi:

Zatwierdź — kontynuuj zgodnie z propozycją.
Zatwierdź, ale… — kontynuuj z poprawkami, które wpiszesz w wyświetlonym polu notatek. Agent kontynuuje tę samą turę z dołączonymi Twoimi wskazówkami.
Odrzuć, ale… — nie rób tego i oto dlaczego (lub co wolałbym zamiast tego). Ponownie, kontynuuje tę samą turę z Twoim uzasadnieniem.
Odrzuć — całkowicie porzuć ten kierunek działań.

Jeśli propozycja agenta oferuje zestaw konkretnych opcji, pojawiają się one jako kafelki szybkiego wyboru nad przyciskami, dzięki czemu możesz kliknąć odpowiedź zamiast pisać. Propozycje wysokiego ryzyka otrzymują czerwony baner ostrzegawczy. Twoja odpowiedź jest rozliczana wewnątrz wątku — agent nie zaczyna od nowa, lecz kontynuuje wątek z Twoją odpowiedzią w kontekście.

Ustaw to jako domyślne: powiedz Caiioo, aby stworzyło tryb ostrożny

Powyższy przepływ pracy to wersja dla każdej akcji. Jeśli chcesz, aby była to Twoja domyślna postawa dla całej klasy zadań, najlepszym rozwiązaniem jest tryb.

Po prostu poproś. W kompozytorze wpisz coś w stylu:

"Utwórz nowy tryb o nazwie Ostrożny, który zawsze przedstawia plan przed wykonaniem jakichkolwiek narzędzi, prosi mnie o zatwierdzenie planu i nie kontynuuje, dopóki nie potwierdzę".

Caiioo użyje swojego wbudowanego narzędzia konfiguracyjnego, aby przygotować dla Ciebie tryb — prompt systemowy, nazwę, ustawienia domyślne. Przełącz się na ten tryb w nagłówku, a każde uruchomienie agenta rozpocznie się od planu, zatrzyma się w celu uzyskania Twojej zgody i dopiero wtedy użyje narzędzi. Później edytuj tryb w ten sam sposób: "Zaktualizuj tryb Ostrożny, aby podsumowywał wyniki po każdym kroku". Agent sam się edytuje.

Tworzenie lub aktualizowanie niestandardowych trybów to funkcja poziomu Pro. Zobacz Tryby i osobowości, aby uzyskać pełny obraz tego, co można skonfigurować w trybach — prompt systemowy, włączone narzędzia, zmienne i inne.

Zobacz także

Narzędzia i integracje — Co znajduje się w katalogu narzędzi i jak je włączać lub wyłączać
Tryby i osobowości — Co można skonfigurować w trybie i jak się między nimi przełączać
Prywatność i dane — Dlaczego dane uwierzytelniające narzędzi pozostają w pęku kluczy (lub odpowiedniku), a nie w udostępnianym pliku konfiguracyjnym
Dlaczego taki projekt — Wpis na blogu wyjaśniający różnice w bezpieczeństwie względem „autonomicznych” agentów