انتقل إلى المحتوى
use-cases / agent-grades-agents / hero
CRON · AGENT · SQLITE

وكيل يُقيّم وكلاء الأمس

منتجك يُشغّل مئات جلسات الوكلاء يومياً. كل جلسة تكتب نسختها النصّية إلى رابط SQLite. في السادسة صباحاً، مُدخل cron يُرسل POST إلى وكيل مُشرف مع موجَّه واحد: اقرأ نُسخ الأمس النصّية، قيّمها، ضع علامة على الأسوأ ثلاثة. حين تجلس إلى مكتبك، يكون كشف العلامات مفتوحاً بالفعل.

اقرأ توثيق العميل
use-cases / agent-grades-agents / mechanism

سطر cron واحد، موجَّه واحد، حُكم واحد

مُدخل cron واحد من خمسة حقول يُرسل POST إلى خدمة الوكيل مع موجَّه. حاوية المُشرف تستيقظ، تقرأ آثار SQLite للأمس، تكتب درجاتها مرة أخرى إلى نفس قاعدة البيانات، ثم تخرج. لا مُنسّق، لا خدمة معايير، ولا أنبوب تقييم.

POST /cron/users/me/entries
POST · المُجدوِل
# POST /api/v1/cron/users/me/entries
{
  "schedule": "0 6 * * *",
  "command": "curl -X POST $AGENT/api/v1/agent/tasks \
     -d @grade.json",
  "comment": "nightly-supervisor"
}
grade.json · موجَّه المُشرف
POST · المُشرف
# grade.json — the supervisor's instructions
{
  "description": "اقرأ نُسخ الأمس النصّية من /sqlite/sessions WHERE day = '2026-05-03'. خُذ عيّنة من 50. قيّم كل واحدة على الواقعية، صحّة استدعاءات الأدوات، انحراف اللهجة. اكتب النتائج إلى جدول التقرير. ضع علامة على الأسوأ ثلاثة للمراجعة البشرية.",
  "mode": "code"
}

سطر cron يُقرّر متى. الموجَّه يُقرّر ماذا. حاوية المُشرف تُؤدّي العمل في حوالي 20 دقيقة بين عشية وضحاها ثم تختفي. العيّنة المُقيَّمة تكون على القرص قبل أن يصل أي شخص إلى مكتبه.

use-cases / agent-grades-agents / powers

ثلاثة أشياء يفعلها وكيل المُشرف ولا تفعلها لوحة تحكّم

شاشات AgentOps تُريك السجلات. معايير LangSmith تُعطيك الدرجات. مُشرف مُقيَّم يُغلق الحلقة — يقرأ النُسخ النصّية، ويُقرّر ما هو سيّئ، ويكتب الحُكم.

READS

يقرأ النُسخ النصّية فعلاً

ليس مجرد مقاييس. المُشرف يفتح كل جلسة، يقرأ استدعاءات الأدوات، يتحقّق من الحقيقة الأساسية، يزن اللهجة. ورقة معايير تعدّ؛ وكيل مُشرف يحكم.

DECIDES

يختار الثلاثة التي يجب أن تراها

من بين 400 تشغيل، 397 جيدة. مهمة المُشرف هي إبراز الثلاثة التي ليست كذلك — بالاسم، مع ملاحظة من سطر واحد. لا تتصفّح لوحة تحكّم، تقرأ أربعة أسطر.

WRITES

يكتب النتائج إلى SQLite

كل درجة وكل ملاحظة تهبط في نفس رابط SQLite الذي يستخدمه الوكلاء. مُشرف الغد يُقارن. الانحراف يصبح استعلاماً، لا إحساساً.

use-cases / agent-grades-agents / flow

من النُسخ النصّية إلى الحُكم في عشرين دقيقة

ثلاثة أشياء تحدث بين السادسة والسادسة وواحد وعشرين دقيقة صباحاً. ولا واحد منها يحتاج إليك.

/cron/0 6 * * * → agent/tasks → /grades/2026-05-03يعمل بينما تنام
READ

افتح النُسخ النصّية للأمس

وكيل المُشرف يستعلم من نفس رابط SQLite الذي كتب إليه العمّال. SELECT * FROM sessions WHERE day = yesterday. خُذ عيّنة من 50 عشوائياً.

SCORE

قيّم كل معيار

لكل جلسة: واقعية، صحّة استدعاء الأدوات، انحراف اللهجة، عدد الهلاوس. درجة حرفية + سبب من سطر واحد. التكلفة: مهمة وكيل واحدة.

FLAG

اكتب النتائج · ضع علامة على الأسفل ثلاثة

INSERT في جدول التقرير. ضع علامة على الأسوأ ثلاثة للمراجعة البشرية. الصفحة في /grades/[date] ليست سوى SELECT على ذلك الجدول.

بحلول السادسة وواحد وعشرين دقيقة صباحاً، توجد عيّنة مُقيَّمة على القرص وثلاث نُسخ نصّية مُعلَّمة في الطابور. المُقيِّم لا يراقب الوكلاء — يعمل بإيقاع منتظم ويحكم عليهم، كمعلّم يقرأ الواجبات بين عشية وضحاها.

use-cases / agent-grades-agents / capacity

ما الذي يشتريه لك الإيقاع

أرقام مبنيّة على أسطح cron + agent + SQLite. لا مقاييس مُختلَقة.

  1. سطر cron واحد0 6 * * *

    خمسة حقول تُقرّر متى يستيقظ المُشرف. غيّر الجدول، غيّر الإيقاع — كل ساعة، يومياً، عند الطلب. السطر هو المُجدوِل بأكمله.

  2. نافذة التقييم~20 min

    مهمة مُشرف تأخذ عيّنة من 50 جلسة، تقرأ كل واحدة، وتكتب الأحكام، تنتهي عادة خلال 20 دقيقة. الحاوية تخرج حين تنتهي المهمة.

  3. عفاريت تنسيق0

    لا Airflow، لا خدمة تقييم، لا مُجدوِل DAG. مُدخل cron هو صفّ في /etc/crontab. الحُكم صفّ في SQLite. لا يوجد شيء ثالث.

تعابير cron قياسية من خمسة حقول وفق Hoody Cron API. طول جلسة المُشرف يعتمد على حجم العيّنة وتعقيد المعايير. SQLite هو نفس رابط hoody-sqlite الذي يكتب إليه وكلاء العمل أصلاً — لا مخزن ثانٍ.

use-cases / agent-grades-agents / punchline

مهمة cron هي المُشرف؛ والمُشرف هو وكيل أيضاً.

أمس · يعمل أعمىاليوم · مُقيَّم بحلول 06:21
ما كانت تبدو عليه الحلقة القديمةإنسان يقرأ السجلات · اجتماع أسبوعي · معايير لاحقة في ورقةاكتشف الانحراف بعد أسبوع · راجع 0.5% من التشغيلات
ما يبدو عليه الآن
اقرأ مواصفات cron + agent
use-cases / agent-grades-agents / replaces

ما الذي يحلّ هذا محلّه

الحزمة القياسية لجودة الوكلاء: لوحات تحكّم للقراءة فقط، مراجعة سجلات يدوية، وأدوات معايير تُقيّم لكنها لا تتصرّف. مُشرف cron يفعل الثلاثة في عشرين دقيقة.

  • مراجعات وكلاء بشرية فقطمهندس يقرأ السجلات يدوياً · عيّنة 0.5% · يلتقط الانحراف بعد أسبوع
  • اجتماعات أسبوعية لاستعراض الوكلاءكان الانحراف عمره أسبوعاً بالفعل حين ناقشتموه
  • فحص يدوي للسجلاتgrep، تصفح، أمل · لا معايير، لا درجة، لا سجلّ
  • لوحات جودة AgentOps (للقراءة فقط)رسوم بيانية عليك أن تفتحها · الحُكم لم يُكتب أبداً
  • معايير تقييم LangSmith التي لا تتصرّفتُحسب الدرجات · لا أحد يُنبَّه · لا أحد يُخبَر
  • معايير ورقات بعديةورقة Google يملؤها أحدهم يوم الجمعة · بايتة بحلول الإثنين
use-cases / agent-grades-agents / cta

توقّف عن قراءة السجلات في الحادية عشرة ليلاً. جدوِل وكيلاً ليفعلها بين عشية وضحاها، واقرأ كشف علاماته مع قهوتك.

اقرأ توثيق العميل
use-cases / agent-grades-agents / related

اقرأ الآخرين