Ir al contenido
use-cases / agent-grades-agents / hero
CRON · AGENT · SQLITE

Un agente que califica a los agentes de ayer

Tu producto corre cientos de sesiones de agente al día. Cada una escribe su transcripción en una URL de SQLite. A las 6 de la mañana, una entrada de cron hace POST a un agente supervisor con un prompt: lee las transcripciones de ayer, puntúalas, marca las tres peores. Cuando te sientas, el boletín ya está abierto.

use-cases / agent-grades-agents / mechanism

Una línea de cron, un prompt, un veredicto

Una sola entrada de cron de 5 campos hace POST al servicio de agentes con un prompt. El contenedor supervisor despierta, lee las trazas de SQLite de ayer, escribe sus notas en la misma base de datos y termina. No hay orquestador, no hay servicio de rúbricas, no hay pipeline de evaluación.

POST /cron/users/me/entries
POST · scheduler
# POST /api/v1/cron/users/me/entries
{
  "schedule": "0 6 * * *",
  "command": "curl -X POST $AGENT/api/v1/agent/tasks \
     -d @grade.json",
  "comment": "nightly-supervisor"
}
grade.json · prompt del supervisor
POST · supervisor
# grade.json — the supervisor's instructions
{
  "description": "Lee las transcripciones de ayer desde /sqlite/sessions WHERE day = '2026-05-03'. Muestrea 50. Puntúa cada una en factualidad, corrección de tools, deriva de tono. Escribe los hallazgos en la tabla report. Marca las tres peores para revisión humana.",
  "mode": "code"
}

La línea de cron decide CUÁNDO. El prompt decide QUÉ. El contenedor supervisor hace el trabajo en unos 20 minutos durante la noche y luego desaparece. La muestra calificada está en disco antes de que nadie esté en su escritorio.

use-cases / agent-grades-agents / powers

Tres cosas que hace un agente supervisor que un dashboard no puede

Las pantallas de AgentOps te muestran logs. Las rúbricas de LangSmith te dan puntuaciones. Un supervisor calificado cierra el bucle — lee las transcripciones, decide qué está mal y escribe el veredicto.

LEE

De verdad lee las transcripciones

No solo métricas. El supervisor abre cada sesión, lee las llamadas a tools, comprueba la verdad de fondo, valora el tono. Una rúbrica de hoja de cálculo cuenta; un supervisor agente juzga.

DECIDE

Elige las tres que deberías ver

De 400 ejecuciones, 397 están bien. El trabajo del supervisor es destacar las tres que no — por nombre, con una nota de una línea. No haces scroll en un dashboard, lees cuatro líneas.

ESCRIBE

Escribe los hallazgos de vuelta a SQLite

Cada nota y cada comentario aterriza en la misma URL de SQLite que usan los agentes. El supervisor de mañana compara. La deriva se vuelve una query, no una sensación.

use-cases / agent-grades-agents / flow

De transcripciones a veredicto en veinte minutos

Tres cosas pasan entre las 6:00 y las 6:21 de la mañana. Ninguna requiere de ti.

/cron/0 6 * * * → agent/tasks → /grades/2026-05-03SE EJECUTA MIENTRAS DUERMES
LEER

Abrir las transcripciones de ayer

El agente supervisor consulta la misma URL de SQLite donde escribieron los workers. SELECT * FROM sessions WHERE day = ayer. Muestrear 50 al azar.

PUNTUAR

Calificar cada rúbrica

Por sesión: factualidad, corrección de llamadas a tools, deriva de tono, recuento de alucinaciones. Nota en letra + razón en una línea. Coste: una sola tarea de agente.

MARCAR

Escribir hallazgos · marcar las tres peores

INSERT en la tabla report. Marcar las tres peores para revisión humana. La página en /grades/[date] es solo un SELECT sobre esa tabla.

A las 6:21 de la mañana hay una muestra calificada en disco y tres transcripciones marcadas en cola. El calificador no observa a los agentes — corre con una cadencia y los juzga, como un profesor leyendo deberes por la noche.

use-cases / agent-grades-agents / capacity

Lo que te da la cadencia

Números basados en las superficies de cron + agente + SQLite. No benchmarks inventados.

  1. UNA LÍNEA DE CRON0 6 * * *

    Cinco campos deciden cuándo despierta el supervisor. Cambia el horario, cambia la cadencia — cada hora, cada día, bajo demanda. La línea es todo el scheduler.

  2. VENTANA DE CALIFICACIÓN~20 min

    Una tarea de supervisor que muestrea 50 sesiones, las lee y escribe veredictos suele terminar dentro de 20 minutos. El contenedor sale cuando termina la tarea.

  3. DAEMONS DE ORQUESTACIÓN0

    Sin Airflow, sin servicio de evaluación, sin scheduler de DAGs. La entrada de cron es una fila en /etc/crontab. El veredicto es una fila en SQLite. No hay una tercera cosa.

Expresiones cron estándar de 5 campos según la API de Hoody Cron. La duración de la sesión del supervisor depende del tamaño de muestra y la complejidad de la rúbrica. SQLite es la misma URL de hoody-sqlite a la que ya escriben los agentes worker — sin segundo almacén.

use-cases / agent-grades-agents / punchline

El job de cron es el supervisor; el supervisor también es un agente.

ayer · a ciegashoy · calificado a las 6:21
CÓMO ERA EL BUCLE ANTIGUOhumano lee logs · reunión semanal · rúbrica post-hoc en una hojase notaba la deriva tras una semana · se revisaba el 0,5% de las ejecuciones
CÓMO ES AHORA
use-cases / agent-grades-agents / replaces

Qué reemplaza esto

El stack estándar de calidad de agentes: dashboards de solo lectura, revisión manual de logs y herramientas de rúbrica que puntúan pero nunca actúan. El cron supervisor hace los tres en veinte minutos.

  • revisiones de agentes solo humanasUna persona leyendo logs a mano · muestra del 0,5% · pilla la deriva tras una semana
  • retros de agentes en reunión semanalLa deriva ya tenía una semana cuando lo discutiste
  • inspección manual de logsgrep, scroll, cruzar los dedos · sin rúbrica, sin nota, sin registro
  • dashboards de calidad de AgentOps (solo lectura)Gráficos que tienes que abrir · el veredicto nunca se escribió
  • rúbricas de eval de LangSmith que no actúanSe calculan puntuaciones · no se avisa a nadie · no se le dice a nadie
  • rúbricas post-hoc en hoja de cálculoUna Google Sheet que alguien rellena el viernes · obsoleta el lunes
use-cases / agent-grades-agents / cta

Deja de leer logs a las 11 de la noche. Programa un agente para que lo haga durante la noche, y lee su boletín con tu café.

use-cases / agent-grades-agents / related

Lee los otros