自主闭环 Agent 系统

量化标准 + 自动验证 + 重试循环 + 校准进化。
人类只审批规则，不审结果。

python auto-agent.py run examples/mvp-001/

系统阶段

MVP

核心链路已跑通

验证器

7 确定性 + 2 LLM

Agent

完整 Agent 编排链路

宪法规则

不可变红线

首次通过率

100%

1/1 任务首次即过

最大重试

四层升级 L1→L4

执行流水线

Quantify Agent

拆解定性需求
为可测维度

LLM

→

Standard Agent

生成确定性
验证标准

LLM

→

用户审批

审标准
不审结果

人类

→

Task Agent

执行任务
生成输出

LLM

→

Verify

9 种验证器
全自动判定

确定性

→

校准反馈

用户满意度
维度库进化

Meta

Verify 失败 → 四层智能重试：L1 修补 → L2 诊断换策略 → L3 拆解组合 → L4 标准审查（最多 12 次）

验证器库（9 种）

compute

eval Python 表达式，返回 True/False

确定性

regex

对指定字段逐条正则匹配

确定性

schema

检查必需字段是否存在

确定性

unique

检查字段值无重复

确定性

exist

检查文件是否存在

确定性

test

执行 shell 命令，检查 exit code

确定性

compose

串行执行多个子检查器

确定性

llm_judge

独立 LLM 多维度打分评估

LLM 评审

consensus

多模型投票，共识即通过

LLM 共识

四层智能重试

传统重试在同一思路打转。每一层升级不只是策略变化，更是对问题本质理解的深化。

结构化反馈

Attempt 1-3

passes/failures 分离
修修补补

诊断换策略

Attempt 4-6

Diagnosis Agent
root cause + strategy

拆解组合

Attempt 7-9

Decompose → 子任务
→ Compose 合并

标准审查

Attempt 10-12

Standard Review
+ 用户决策

可选：

竞争式并行 3 Persona × ThreadPoolExecutor → 取最高分

关键设计决策

反应试

Task Agent 只看标准的自然语言描述，看不到具体 expression/regex/threshold。防止"对着答案做题"。

验证零 LLM

7 个确定性验证器完全不依赖 LLM。llm_judge 和 consensus 用独立模型，不是让考生自己批卷。

维度自测

Quantify Agent 生成维度后，自动生成错误输出测试维度的区分度。维度抓不到坏数据 = 无效维度。

校准飞轮

每次用户反馈 → 维度库更新 → 下次量化更精准。任务做得越多，系统对质量标准的理解越深。

实现进展

2026-02-20

架构设计完成

三层架构讨论（宪法 → Meta → 执行）。6 条红线。原始验证器库设计。冷启动策略。

2026-02-20

MVP 核心实现完成

单文件 ~1400 行。7 个确定性验证器 + Verify 逻辑 + Standard Agent + Task Agent + 重试循环 + CLI。端到端测试通过（8/8）。

2026-02-20

LLM 验证器 + 反应试完成

新增 llm_judge（独立模型打分）和 consensus（多模型投票）。Task Agent prompt 隐藏实现细节。结构化反馈替代文本拼接。

2026-02-20

Quantify Agent + 校准系统完成

Quantify Agent 将模糊需求拆解为可测维度。维度自测机制。calibration.json 记录用户反馈 + 维度命中率。维度库随使用进化。

2026-02-20

监测指标 + Metrics 命令完成

LLM 调用追踪（按模型分类）。status 命令格式化输出。metrics 命令全局汇总：首次通过率、平均尝试次数、用户满意率、维度命中率、LLM 效率。

2026-02-21

四层智能重试完成

L1 结构化反馈 → L2 Diagnosis Agent 诊断根因+策略切换 → L3 Decompose/Compose 拆解组合 → L4 Standard Review 标准审查+用户决策。最多 12 次尝试。L1 回归测试通过。

2026-02-21

竞争式并行完成

3 个 Persona（precise/creative/minimal）通过 ThreadPoolExecutor 并行执行，按 score 取最优。可在任意重试层级启用。

2026-02-21

Input Agent + 任务示例 + 测试套件完成

Input Agent（自然语言 → task.json，CLI + 交互模式）。3 个新示例（代码生成/文档写作/翻译校验）。34 个单元测试全通过。Calibration seed 数据。GitHub 已推送。

下一步

L2-L4 实战验证待实现

用更复杂的任务触发四层重试的 L2 诊断、L3 分解、L4 审查。跨任务校准飞轮验证。竞争式并行效果评估。

演进日志

功能 2026-02-21

四层智能重试上线。L1 修补 → L2 诊断换策略 → L3 拆解组合 → L4 标准审查。"重试不是再来一次，是换个方式来"。最多 12 次尝试，逐层升级。

功能 2026-02-21

竞争式并行上线。3 个 Persona（precise/creative/minimal）通过 ThreadPoolExecutor 真并行，按 score 取最优。subprocess 释放 GIL，实现 CPU 级并发。

洞察 2026-02-21

重试层级和人类思维完全一致：先试（L1）→ 再想（L2）→ 再拆（L3）→ 最后质疑前提（L4）。每一层不只改策略，更是对问题本质的更深理解。

洞察 2026-02-20

"不可量化"是假命题。主观判断 = 大量微观客观标准的叠加。分解维度 + 多评审者共识 + 校准循环，可以逼近任何人类判断。

功能 2026-02-20

Quantify Agent 上线。将模糊需求自动拆解为 llm_judge + consensus 维度。维度自测机制确保区分度。calibration 飞轮启动。

修复 2026-02-20

llm_judge 缺少任务上下文导致误判。修复：自动注入 task description，让评审 LLM 理解"过滤是需求，不是数据丢失"。

修复 2026-02-20

consensus checker 解析失败。模型返回 "YES" 纯文本而非 JSON。修复：fallback 解析 yes/no/pass/fail 文本响应。

架构 2026-02-20

初始架构确立。宪法 6 条红线。MVP 砍掉 Input Agent + Meta 层 + 并行重试，保留最短链路验证核心假设。

文档

💡

设计哲学与核心洞察约 3.4k 字，阅读约 7 分钟

为什么做 Auto Agent、验证零 LLM、反应试、宪法系统、校准飞轮

→

📋

系统架构全貌约 8k 字，阅读约 17 分钟

三层架构、7 Agent 编排、9 Checker、四层重试、数据流、文件结构

→

✅

MVP 验证报告约 4.4k 字，阅读约 9 分钟

mvp-001 测试任务、13/13 一次通过、性能数据、假设验证

→

🔄

四层智能重试详解约 8.7k 字，阅读约 18 分钟

L1-L4 逐层详解、竞争式并行、完整 trace 示例、风险应对

→