
1 つのサーバーで 60 のコンテナ
1 つのベアメタルボックスで数十から数百の Hoody コンテナを実行。KSM と BTRFS のデデュプでマージナルコストはほぼゼロ。
あなたのプロダクトは 1 日に何百ものエージェントセッションを動かしています。それぞれがトランスクリプトを SQLite URL に書き込みます。午前 6 時、cron エントリが 1 つのプロンプトとともにスーパーバイザーエージェントに POST します。「昨日のトランスクリプトを読み、採点し、最悪の 3 件をフラグせよ」。あなたが席に着く頃には、通信簿はもう開いています。
cron ジョブ自身がスーパーバイザー · スーパーバイザーもまたエージェント
5 フィールドの cron エントリが 1 つ、プロンプト付きで agent サービスに POST します。スーパーバイザーコンテナが起動し、昨日の SQLite トレースを読み、採点を同じデータベースに書き戻し、終了します。オーケストレーターも、ルーブリックサービスも、評価パイプラインもありません。
# POST /api/v1/cron/users/me/entries { "schedule": "0 6 * * *", "command": "curl -X POST $AGENT/api/v1/agent/tasks \ -d @grade.json", "comment": "nightly-supervisor" }
# grade.json — the supervisor's instructions { "description": "/sqlite/sessions WHERE day = '2026-05-03' から昨日のトランスクリプトを読み込め。50 件サンプリングし、事実性、ツール呼び出しの正確性、トーンのドリフトで採点せよ。所見を report テーブルに書き込み、最悪の 3 件を人間レビュー用にフラグせよ。", "mode": "code" }
cron 行が「いつ」を決め、プロンプトが「何を」を決めます。スーパーバイザーコンテナは夜間に約 20 分で作業を終え、消えていきます。誰かが机に着く頃には、採点済みのサンプルがディスク上にあります。
AgentOps の画面はログを見せます。LangSmith のルーブリックはスコアを与えます。採点するスーパーバイザーはループを閉じます — トランスクリプトを読み、何が悪いかを判断し、判定を書き込みます。
メトリクスだけではありません。スーパーバイザーは各セッションを開き、ツール呼び出しを読み、グラウンドトゥルースを確認し、トーンを評価します。スプレッドシートのルーブリックは数えるだけ。エージェントスーパーバイザーは判断します。
400 ランのうち 397 は問題ありません。スーパーバイザーの仕事は、問題のある 3 件を浮かび上がらせることです — 名前付き、1 行のメモ付きで。ダッシュボードをスクロールするのではなく、4 行を読むだけ。
すべての採点と所見は、エージェントが使う同じ SQLite URL に着地します。明日のスーパーバイザーが比較します。ドリフトは「雰囲気」ではなくクエリになります。
午前 6:00 から 6:21 の間に 3 つのことが起きます。どれもあなたを必要としません。
スーパーバイザーエージェントは、ワーカーが書き込んだのと同じ SQLite URL にクエリします。SELECT * FROM sessions WHERE day = yesterday。ランダムに 50 件サンプリング。
セッションごとに: 事実性、ツール呼び出しの正確性、トーンドリフト、ハルシネーション数。レターグレード + 1 行の理由。コスト: agent タスク 1 つ。
report テーブルに INSERT。最悪の 3 件を人間レビュー用にマーク。/grades/[date] のページはそのテーブルに対する SELECT に過ぎません。
午前 6:21 までに、ディスク上に採点済みサンプルとフラグ付きの 3 つのトランスクリプトが並びます。採点者はエージェントを監視するのではなく、決まったケイデンスで動き、彼らを判定します。先生が一晩で宿題を読むようなものです。
数値は cron + agent + SQLite 表面に基づきます。捏造したベンチマークではありません。
5 フィールドがスーパーバイザーの起床時刻を決めます。スケジュールを変えればケイデンスが変わります — 1 時間ごと、毎日、オンデマンド。この行がスケジューラーのすべてです。
50 セッションをサンプリングし、それぞれを読み、判定を書き込むスーパーバイザータスクは、典型的に 20 分以内に完了します。タスクが終わるとコンテナも終了します。
Airflow も、評価サービスも、DAG スケジューラーもありません。cron エントリは /etc/crontab の 1 行です。判定は SQLite の 1 行です。第三のものは存在しません。
Hoody Cron API に基づく標準の 5 フィールド cron 式。スーパーバイザーのセッション長はサンプルサイズとルーブリックの複雑さに依存します。SQLite は、ワーカーエージェントがすでに書き込む hoody-sqlite URL と同じです — 第二のストアはありません。
cron ジョブはスーパーバイザー、スーパーバイザーもまたエージェント。
標準的なエージェント品質スタック: 読み取り専用ダッシュボード、手作業のログレビュー、採点はするが行動しないルーブリックツール。スーパーバイザー cron は 20 分でその 3 つすべてをやります。
午後 11 時にログを読むのはやめましょう。エージェントを夜間にスケジュールし、コーヒー片手にその通信簿を読むのです。