Zum Inhalt springen
use-cases / agent-grades-agents / hero
CRON · AGENT · SQLITE

Ein Agent, der die Agenten von gestern benotet

Dein Produkt fährt hunderte Agent-Sessions am Tag. Jede schreibt ihr Transkript an eine SQLite-URL. Um 6 Uhr POSTet ein Cron-Eintrag an einen Supervisor-Agenten mit einem Prompt: lies die Transkripte von gestern, bewerte sie, markiere die schlechtesten drei. Wenn du dich an den Schreibtisch setzt, ist das Zeugnis schon offen.

Agent-Docs lesen
use-cases / agent-grades-agents / mechanism

Eine Cron-Zeile, ein Prompt, ein Verdikt

Ein einzelner 5-Feld-Cron-Eintrag POSTet an den Agent-Service mit einem Prompt. Der Supervisor-Container wacht auf, liest die SQLite-Traces von gestern, schreibt seine Bewertungen in dieselbe Datenbank zurück und beendet sich. Es gibt keinen Orchestrator, keinen Rubric-Service, keine Eval-Pipeline.

POST /cron/users/me/entries
POST · Scheduler
# POST /api/v1/cron/users/me/entries
{
  "schedule": "0 6 * * *",
  "command": "curl -X POST $AGENT/api/v1/agent/tasks \
     -d @grade.json",
  "comment": "nightly-supervisor"
}
grade.json · supervisor prompt
POST · Supervisor
# grade.json — the supervisor's instructions
{
  "description": "Lies die Transkripte von gestern aus /sqlite/sessions WHERE day = '2026-05-03'. Sample 50. Bewerte jedes nach Faktentreue, Tool-Korrektheit, Tone-Drift. Schreibe Findings in die Report-Tabelle. Markiere die schlechtesten drei für menschliche Prüfung.",
  "mode": "code"
}

Die Cron-Zeile entscheidet WANN. Der Prompt entscheidet WAS. Der Supervisor-Container erledigt die Arbeit über Nacht in etwa 20 Minuten und verschwindet dann. Das benotete Sample liegt auf der Platte, bevor irgendwer am Schreibtisch ist.

use-cases / agent-grades-agents / powers

Drei Dinge, die ein Supervisor-Agent kann, ein Dashboard nicht

AgentOps-Bildschirme zeigen dir Logs. LangSmith-Rubriken geben dir Scores. Ein benoteter Supervisor schließt die Schleife — er liest die Transkripte, entscheidet was schlecht ist und schreibt das Verdikt.

LIEST

Er liest die Transkripte tatsächlich

Nicht nur Metriken. Der Supervisor öffnet jede Session, liest Tool-Calls, prüft die Ground Truth, wägt den Ton ab. Eine Tabellen-Rubrik zählt; ein Agent-Supervisor urteilt.

ENTSCHEIDET

Er sucht die drei aus, die du sehen solltest

Von 400 Runs sind 397 in Ordnung. Der Job des Supervisors ist es, die drei zu finden, die es nicht sind — namentlich, mit einer einzeiligen Notiz. Du scrollst kein Dashboard, du liest vier Zeilen.

SCHREIBT

Er schreibt Findings zurück nach SQLite

Jede Note und jede Notiz landet in derselben SQLite-URL, die die Agenten benutzen. Der Supervisor von morgen vergleicht. Drift wird zu einer Query, nicht zu einem Bauchgefühl.

use-cases / agent-grades-agents / flow

Von Transkripten zum Verdikt in zwanzig Minuten

Drei Dinge passieren zwischen 6:00 und 6:21 Uhr. Keines davon braucht dich.

/cron/0 6 * * * → agent/tasks → /grades/2026-05-03LÄUFT, WÄHREND DU SCHLÄFST
READ

Transkripte von gestern öffnen

Der Supervisor-Agent fragt dieselbe SQLite-URL ab, in die die Worker geschrieben haben. SELECT * FROM sessions WHERE day = yesterday. Sample 50 zufällig.

SCORE

Jede Rubrik bewerten

Pro Session: Faktentreue, Tool-Call-Korrektheit, Tone-Drift, Halluzinations-Anzahl. Buchstabennote + einzeiliger Grund. Kosten: ein einzelner Agent-Task.

FLAG

Findings schreiben · die unteren drei markieren

INSERT in die Report-Tabelle. Markiere die schlechtesten drei für menschliche Prüfung. Die Seite unter /grades/[date] ist nur ein SELECT auf diese Tabelle.

Um 6:21 Uhr liegt ein benotetes Sample auf der Platte und drei markierte Transkripte stehen in der Queue. Der Bewerter schaut den Agenten nicht zu — er läuft im Takt und urteilt über sie, wie eine Lehrerin, die Hausaufgaben über Nacht durchliest.

use-cases / agent-grades-agents / capacity

Was dir der Takt einbringt

Zahlen verankert in den Cron-, Agent- und SQLite-Oberflächen. Keine erfundenen Benchmarks.

  1. EINE CRON-ZEILE0 6 * * *

    Fünf Felder entscheiden, wann der Supervisor aufwacht. Ändere den Schedule, ändere den Takt — stündlich, täglich, on-demand. Die Zeile ist der gesamte Scheduler.

  2. BEWERTUNGS-FENSTER~20 Min

    Ein Supervisor-Task, der 50 Sessions sampelt, jede liest und Verdikte schreibt, wird typischerweise in unter 20 Minuten fertig. Der Container beendet sich, wenn der Task fertig ist.

  3. ORCHESTRATOR-DAEMONS0

    Kein Airflow, kein Eval-Service, kein DAG-Scheduler. Der Cron-Eintrag ist eine Zeile in /etc/crontab. Das Verdikt ist eine Zeile in SQLite. Es gibt kein drittes Ding.

Standard-5-Feld-Cron-Ausdrücke gemäß Hoody Cron API. Die Länge der Supervisor-Session hängt von Sample-Größe und Rubrik-Komplexität ab. SQLite ist dieselbe hoody-sqlite-URL, in die die Worker-Agenten ohnehin schon schreiben — kein zweiter Store.

use-cases / agent-grades-agents / punchline

Der Cron-Job ist der Supervisor; der Supervisor ist auch ein Agent.

gestern · im Blindflugheute · benotet bis 6:21
WIE DIE ALTE SCHLEIFE AUSSAHMensch liest Logs · Wochenmeeting · post-hoc Rubrik in einem SheetDrift erst nach einer Woche bemerkt · 0,5 % der Runs geprüft
WIE ES JETZT AUSSIEHT
use-cases / agent-grades-agents / replaces

Was das ersetzt

Der Standard-Stack für Agent-Qualität: schreibgeschützte Dashboards, manuelle Log-Reviews und Rubric-Tools, die scoren, aber nie handeln. Der Supervisor-Cron erledigt alle drei in zwanzig Minuten.

  • rein menschliche Agent-ReviewsEine Engineerin liest Logs von Hand · 0,5 % Sample · merkt Drift erst nach einer Woche
  • Wochenmeeting-Agent-RetrosDer Drift war schon eine Woche alt, als ihr darüber gesprochen habt
  • manuelle Log-Inspektiongrep, scrollen, hoffen · keine Rubrik, kein Score, kein Record
  • AgentOps-Qualitäts-Dashboards (read-only)Charts, die du aufmachen musst · das Verdikt wurde nie aufgeschrieben
  • LangSmith-Eval-Rubriken, die nicht handelnScores werden berechnet · niemand wird gepaged · niemand erfährt es
  • post-hoc Tabellen-RubrikenEin Google Sheet, das jemand am Freitag ausfüllt · am Montag schon veraltet
use-cases / agent-grades-agents / cta

Hör auf, um 23 Uhr Logs zu lesen. Plan einen Agenten ein, der das über Nacht macht, und lies sein Zeugnis beim Kaffee.

Agent-Docs lesen
use-cases / agent-grades-agents / related

Lies die anderen