
Sesenta contenedores en un servidor
Un servidor bare-metal ejecuta decenas a cientos de contenedores Hoody. KSM y dedup BTRFS hacen que el costo marginal sea casi cero.
Tu producto corre cientos de sesiones de agente al día. Cada una escribe su transcripción en una URL de SQLite. A las 6 de la mañana, una entrada de cron hace POST a un agente supervisor con un prompt: lee las transcripciones de ayer, puntúalas, marca las tres peores. Cuando te sientas, el boletín ya está abierto.
el job de cron es el supervisor · el supervisor también es un agente
Una sola entrada de cron de 5 campos hace POST al servicio de agentes con un prompt. El contenedor supervisor despierta, lee las trazas de SQLite de ayer, escribe sus notas en la misma base de datos y termina. No hay orquestador, no hay servicio de rúbricas, no hay pipeline de evaluación.
# POST /api/v1/cron/users/me/entries { "schedule": "0 6 * * *", "command": "curl -X POST $AGENT/api/v1/agent/tasks \ -d @grade.json", "comment": "nightly-supervisor" }
# grade.json — the supervisor's instructions { "description": "Lee las transcripciones de ayer desde /sqlite/sessions WHERE day = '2026-05-03'. Muestrea 50. Puntúa cada una en factualidad, corrección de tools, deriva de tono. Escribe los hallazgos en la tabla report. Marca las tres peores para revisión humana.", "mode": "code" }
La línea de cron decide CUÁNDO. El prompt decide QUÉ. El contenedor supervisor hace el trabajo en unos 20 minutos durante la noche y luego desaparece. La muestra calificada está en disco antes de que nadie esté en su escritorio.
Las pantallas de AgentOps te muestran logs. Las rúbricas de LangSmith te dan puntuaciones. Un supervisor calificado cierra el bucle — lee las transcripciones, decide qué está mal y escribe el veredicto.
No solo métricas. El supervisor abre cada sesión, lee las llamadas a tools, comprueba la verdad de fondo, valora el tono. Una rúbrica de hoja de cálculo cuenta; un supervisor agente juzga.
De 400 ejecuciones, 397 están bien. El trabajo del supervisor es destacar las tres que no — por nombre, con una nota de una línea. No haces scroll en un dashboard, lees cuatro líneas.
Cada nota y cada comentario aterriza en la misma URL de SQLite que usan los agentes. El supervisor de mañana compara. La deriva se vuelve una query, no una sensación.
Tres cosas pasan entre las 6:00 y las 6:21 de la mañana. Ninguna requiere de ti.
El agente supervisor consulta la misma URL de SQLite donde escribieron los workers. SELECT * FROM sessions WHERE day = ayer. Muestrear 50 al azar.
Por sesión: factualidad, corrección de llamadas a tools, deriva de tono, recuento de alucinaciones. Nota en letra + razón en una línea. Coste: una sola tarea de agente.
INSERT en la tabla report. Marcar las tres peores para revisión humana. La página en /grades/[date] es solo un SELECT sobre esa tabla.
A las 6:21 de la mañana hay una muestra calificada en disco y tres transcripciones marcadas en cola. El calificador no observa a los agentes — corre con una cadencia y los juzga, como un profesor leyendo deberes por la noche.
Números basados en las superficies de cron + agente + SQLite. No benchmarks inventados.
Cinco campos deciden cuándo despierta el supervisor. Cambia el horario, cambia la cadencia — cada hora, cada día, bajo demanda. La línea es todo el scheduler.
Una tarea de supervisor que muestrea 50 sesiones, las lee y escribe veredictos suele terminar dentro de 20 minutos. El contenedor sale cuando termina la tarea.
Sin Airflow, sin servicio de evaluación, sin scheduler de DAGs. La entrada de cron es una fila en /etc/crontab. El veredicto es una fila en SQLite. No hay una tercera cosa.
Expresiones cron estándar de 5 campos según la API de Hoody Cron. La duración de la sesión del supervisor depende del tamaño de muestra y la complejidad de la rúbrica. SQLite es la misma URL de hoody-sqlite a la que ya escriben los agentes worker — sin segundo almacén.
El job de cron es el supervisor; el supervisor también es un agente.
El stack estándar de calidad de agentes: dashboards de solo lectura, revisión manual de logs y herramientas de rúbrica que puntúan pero nunca actúan. El cron supervisor hace los tres en veinte minutos.
Deja de leer logs a las 11 de la noche. Programa un agente para que lo haga durante la noche, y lee su boletín con tu café.