Pular para o conteúdo
use-cases / agent-grades-agents / hero
CRON · AGENT · SQLITE

Um agente que avalia os agentes de ontem

Seu produto roda centenas de sessões de agente por dia. Cada uma escreve sua transcrição em uma URL do SQLite. Às 6h, uma entrada de cron faz POST para um agente supervisor com um único prompt: leia as transcrições de ontem, pontue-as, sinalize as três piores. Quando você senta, o boletim já está aberto.

use-cases / agent-grades-agents / mechanism

Uma linha de cron, um prompt, um veredito

Uma única entrada de cron de 5 campos faz POST para o serviço de agentes com um prompt. O container do supervisor acorda, lê os traços do SQLite de ontem, escreve suas notas de volta no mesmo banco e encerra. Não há orquestrador, nem serviço de rubricas, nem pipeline de eval.

POST /cron/users/me/entries
POST · agendador
# POST /api/v1/cron/users/me/entries
{
  "schedule": "0 6 * * *",
  "command": "curl -X POST $AGENT/api/v1/agent/tasks \
     -d @grade.json",
  "comment": "nightly-supervisor"
}
grade.json · prompt do supervisor
POST · supervisor
# grade.json — the supervisor's instructions
{
  "description": "Leia as transcrições de ontem em /sqlite/sessions WHERE day = '2026-05-03'. Amostre 50. Pontue cada uma em factualidade, correção do uso de ferramentas, deriva de tom. Escreva as descobertas na tabela de relatório. Sinalize as três piores para revisão humana.",
  "mode": "code"
}

A linha do cron decide QUANDO. O prompt decide O QUÊ. O container do supervisor faz o trabalho em ~20 minutos durante a noite e depois desaparece. A amostra avaliada está em disco quando alguém chega à mesa.

use-cases / agent-grades-agents / powers

Três coisas que um agente supervisor faz que um dashboard não faz

Telas de AgentOps mostram logs. Rubricas do LangSmith dão notas. Um supervisor avaliador fecha o ciclo — ele lê as transcrições, decide o que está ruim e escreve o veredito.

Ele de fato lê as transcrições

Não só métricas. O supervisor abre cada sessão, lê chamadas de ferramenta, confere o ground truth, pesa o tom. Uma rubrica em planilha conta; um agente supervisor julga.

DECIDE

Ele escolhe os três que você deve ver

De 400 execuções, 397 estão bem. O trabalho do supervisor é destacar as três que não estão — pelo nome, com uma observação de uma linha. Você não rola um dashboard, lê quatro linhas.

ESCREVE

Ele escreve as descobertas de volta no SQLite

Cada nota e cada observação aterrissa na mesma URL do SQLite que os agentes usam. O supervisor de amanhã compara. Deriva vira uma query, não uma sensação.

use-cases / agent-grades-agents / flow

De transcrições a veredito em vinte minutos

Três coisas acontecem entre 6:00 e 6:21. Nenhuma delas exige você.

/cron/0 6 * * * → agent/tasks → /grades/2026-05-03RODA ENQUANTO VOCÊ DORME
READ

Abrir as transcrições de ontem

O agente supervisor consulta a mesma URL do SQLite onde os workers escreveram. SELECT * FROM sessions WHERE day = ontem. Amostre 50 ao acaso.

SCORE

Avaliar cada rubrica

Por sessão: factualidade, correção das chamadas de ferramenta, deriva de tom, contagem de alucinações. Nota em letra + razão de uma linha. Custo: uma única tarefa de agente.

FLAG

Escrever descobertas · sinalizar as três últimas

INSERT na tabela de relatório. Marque as três piores para revisão humana. A página em /grades/[date] é apenas um SELECT nessa tabela.

Às 6:21 já há uma amostra avaliada em disco e três transcrições sinalizadas na fila. O avaliador não fica observando os agentes — ele roda em uma cadência e os julga, como uma professora corrigindo lição de casa de noite.

use-cases / agent-grades-agents / capacity

O que a cadência te entrega

Números fundamentados nas superfícies de cron + agent + SQLite. Não são benchmarks inventados.

  1. UMA LINHA DE CRON0 6 * * *

    Cinco campos decidem quando o supervisor acorda. Mude o agendamento, mude a cadência — por hora, diária, sob demanda. A linha é o agendador inteiro.

  2. JANELA DE AVALIAÇÃO~20 min

    Uma tarefa de supervisor que amostra 50 sessões, lê cada uma e escreve os vereditos costuma terminar em até 20 minutos. O container encerra quando a tarefa termina.

  3. DAEMONS DE ORQUESTRAÇÃO0

    Sem Airflow, sem serviço de eval, sem agendador de DAGs. A entrada de cron é uma linha em /etc/crontab. O veredito é uma linha no SQLite. Não há terceira coisa.

Expressões de cron padrão de 5 campos conforme a API do Hoody Cron. A duração da sessão do supervisor depende do tamanho da amostra e da complexidade da rubrica. SQLite é a mesma URL hoody-sqlite onde os agentes worker já escrevem — sem segundo armazenamento.

use-cases / agent-grades-agents / punchline

O cron job é o supervisor; o supervisor também é um agente.

ontem · rodando às cegashoje · avaliado até as 6:21
COMO ERA O LOOP ANTIGOhumano lê logs · reunião semanal · rubrica post-hoc numa planilhaderiva notada após uma semana · revisava 0,5% das execuções
COMO É AGORA
use-cases / agent-grades-agents / replaces

O que isto substitui

A pilha padrão de qualidade de agentes: dashboards somente-leitura, revisão manual de logs e ferramentas de rubrica que pontuam mas nunca agem. O cron supervisor faz as três coisas em vinte minutos.

  • revisões de agentes só com humanoUm engenheiro lendo logs à mão · amostra de 0,5% · pega deriva após uma semana
  • retros de agentes em reuniões semanaisA deriva já tinha uma semana quando vocês foram discutir
  • inspeção manual de logsgrep, scroll, esperança · sem rubrica, sem nota, sem registro
  • dashboards de qualidade do AgentOps (somente-leitura)Gráficos que você precisa abrir · o veredito nunca foi escrito
  • rubricas de eval do LangSmith que não agemNotas são calculadas · ninguém é alertado · ninguém é avisado
  • rubricas em planilha post-hocUma planilha do Google que alguém preenche na sexta · velha na segunda
use-cases / agent-grades-agents / cta

Pare de ler logs às 23h. Agende um agente para fazer isso de madrugada e leia o boletim com seu café.

use-cases / agent-grades-agents / related

Leia os outros