Problem
You want to let the AI use tools — browse, write files, send messages — but only after you see what it intends to do and can stop or scope the action.

Esta es una traducción automática del documento original en inglés. En caso de cualquier discrepancia entre esta traducción y la versión original en inglés, prevalecerá la versión en inglés. Leer la versión original en inglés


Controla lo que la IA puede hacer antes de que lo haga

Cada proveedor de agentes te promete "¡autonomía total!". El contrato de Caiioo es lo opuesto: el agente describe lo que está a punto de hacer y tú decides si lo permites, por acción, por conversación o para siempre. Así es como se ve de extremo a extremo.

Antes de empezar

Abre Ajustes > Herramientas para ver qué herramientas están habilitadas actualmente para tu modo. Deshabilita cualquier cosa que no quieras que el agente intente usar en primer lugar. La aprobación solo se aplica a las herramientas que están habilitadas; las herramientas deshabilitadas nunca se ofrecen al modelo.

Cuando el agente quiere usar una herramienta

Pide algo que ponga en marcha una herramienta. "Busca en la web cambios recientes en la Ley de IA de la UE", "lista mi calendario para mañana", "guarda esta nota en un archivo"; cualquiera de estas acciones hará que el agente proponga una llamada a una herramienta.

El agente no procede por su cuenta. Un modal titulado Aprobación requerida bloquea la ejecución y muestra:

  • Intención: una línea que describe lo que el agente intenta hacer, en sus propias palabras. Esto es lo primero en lo que se fija la vista.
  • Nombre de la herramienta y acción: por ejemplo, googleCalendar.listEvents, fileSystem.writeFile.
  • Nivel de riesgo: escudo codificado por colores: verde para lecturas de bajo riesgo, ámbar para escrituras, rojo para operaciones destructivas o de envío de dinero. Las herramientas de alto riesgo también muestran un banner de advertencia: "Esta es una operación de alto riesgo. Solo apruébala si entiendes lo que hará".
  • Detalles: una sección expandible con los argumentos saneados. Los secretos (claves API, tokens, contraseñas) se eliminan antes de mostrarse. Un interruptor de Mostrar JSON sin formato en el interior revela la carga útil intacta si quieres ver exactamente qué se envía por la red.

Elige el alcance que se ajuste al riesgo

El pie de página ofrece cuatro botones. Cada uno se asigna a una decisión de confianza diferente:

Botón Qué hace
Denegar Bloquea esta única acción. El agente recibe la denegación y puede intentar otra cosa.
Aprobar una vez Permite esta llamada específica y vuelve a preguntar en la siguiente invocación. Ideal para tareas puntuales.
Aprobar para la conversación Permite todos los usos de esta herramienta dentro del hilo actual. Se restablece cuando inicias una nueva conversación. Ideal para el caso común: "Voy a investigar durante la próxima hora, deja que el agente busque libremente".
Aprobar siempre Permiso global permanente en todas las conversaciones. Se muestra en rojo para herramientas de alto riesgo para que no hagas clic por hábito. Ideal para herramientas de bajo riesgo que usas constantemente (como la calculadora).

Mira cómo sucede

Una vez aprobada, la llamada a la herramienta se ejecuta y aparece en el panel lateral junto a la conversación con su estado en vivo — pendiente → ejecutando → éxito o fallo — junto con los argumentos con los que realmente se ejecutó y el resultado obtenido. No se ejecuta nada que no hayas visto; nada se ejecuta silenciosamente en segundo plano.

Detén en cualquier momento

Si una herramienta que aprobaste se comporta mal o la conversación va hacia un lugar que no pretendías, pulsa el botón de detener en el redactor. El agente se detiene inmediatamente, las aprobaciones pendientes se borran y cualquier sesión de navegador en curso se cierra limpiamente. Sin llamadas a herramientas huérfanas, sin bucles descontrolados.

Cuando el agente hace una pausa para hacerte una pregunta

La aprobación es el agente pidiendo permiso. A veces el agente necesita información: no está seguro de cuál de los dos caminos quieres, o quiere que des el visto bueno a un plan antes de gastar una docena de llamadas a herramientas ejecutándolo. Para eso utiliza un panel separado de "humano en el bucle" que pausa el turno y te pregunta directamente.

El panel muestra un título, una propuesta renderizada en markdown (el plan del agente, su borrador, su pregunta) y cuatro botones de respuesta:

  • Aprobar: proceder según lo propuesto.
  • Aprobar pero...: proceder con los ajustes que escribas en el campo de notas que aparece. El agente continúa el mismo turno con tu guía adjunta.
  • Rechazar pero...: no hagas esto, y aquí está el porqué (o qué preferiría). De nuevo, continúa el mismo turno con tu razonamiento.
  • Rechazar: abandonar esta dirección por completo.

Si la propuesta del agente ofrece un conjunto de opciones concretas, estas aparecen como etiquetas de selección rápida sobre los botones para que puedas hacer clic en una respuesta en lugar de escribir. Las propuestas de alto riesgo reciben un banner de advertencia rojo sobre el cuerpo. Tu respuesta se resuelve en línea: el agente no empieza de cero, simplemente retoma el hilo con tu respuesta en contexto.

Hazlo por defecto: dile a Caiioo que cree un modo cauteloso

El flujo de trabajo anterior es la versión por acción. Si quieres que esta sea tu postura predeterminada para toda una clase de tareas, la respuesta más limpia es un modo.

Solo pídelo. En el compositor, escribe algo como:

"Crea un nuevo modo llamado Cauteloso que siempre presente un plan antes de ejecutar cualquier herramienta, me pida que apruebe el plan y no proceda hasta que yo confirme".

Caiioo usará su herramienta de configuración integrada para crear el modo por ti: comando de sistema, nombre, valores predeterminados. Cambia a ese modo desde el selector de modos del encabezado y cada ejecución del agente comenzará con un plan, se detendrá para tu aprobación y solo entonces tocará las herramientas. Edita el modo de la misma manera más tarde: "Actualiza el modo Cauteloso para que también resuma los resultados después de cada paso". El agente se edita a sí mismo.

Crear o actualizar modos personalizados es una capacidad del nivel Pro. Consulta Modos y personalidades para ver el panorama completo de lo que los modos pueden configurar: comando de sistema, herramientas habilitadas, variables y más.

Ver también

  • Herramientas e Integraciones — Qué hay en el catálogo de herramientas y cómo habilitar o deshabilitar cada una
  • Modos y Personalidades — Qué puede configurar un modo y cómo cambiar entre ellos
  • Privacidad y Datos — Por qué las credenciales usadas por las herramientas se quedan en el Llavero (o equivalente) en lugar de en un archivo de configuración compartido
  • Por qué este diseño — La publicación del blog que analiza el contraste de seguridad con los agentes "autónomos"