Auto Agent MVP

自主闭环 Agent 系统

量化标准 + 自动验证 + 重试循环 + 校准进化。
人类只审批规则,不审结果。

python auto-agent.py run examples/mvp-001/
系统阶段
MVP
核心链路已跑通
验证器
9
7 确定性 + 2 LLM
Agent
7
完整 Agent 编排链路
宪法规则
6
不可变红线
首次通过率
100%
1/1 任务首次即过
最大重试
12
四层升级 L1→L4
执行流水线
Quantify Agent
拆解定性需求
为可测维度
LLM
Standard Agent
生成确定性
验证标准
LLM
用户审批
审标准
不审结果
人类
Task Agent
执行任务
生成输出
LLM
Verify
9 种验证器
全自动判定
确定性
校准反馈
用户满意度
维度库进化
Meta

Verify 失败 → 四层智能重试:L1 修补 → L2 诊断换策略 → L3 拆解组合 → L4 标准审查(最多 12 次)

验证器库(9 种)
compute
eval Python 表达式,返回 True/False
确定性
regex
对指定字段逐条正则匹配
确定性
schema
检查必需字段是否存在
确定性
unique
检查字段值无重复
确定性
exist
检查文件是否存在
确定性
test
执行 shell 命令,检查 exit code
确定性
compose
串行执行多个子检查器
确定性
llm_judge
独立 LLM 多维度打分评估
LLM 评审
consensus
多模型投票,共识即通过
LLM 共识
四层智能重试

传统重试在同一思路打转。每一层升级不只是策略变化,更是对问题本质理解的深化。

L1
结构化反馈
Attempt 1-3
passes/failures 分离
修修补补
L2
诊断换策略
Attempt 4-6
Diagnosis Agent
root cause + strategy
L3
拆解组合
Attempt 7-9
Decompose → 子任务
→ Compose 合并
L4
标准审查
Attempt 10-12
Standard Review
+ 用户决策
可选:
竞争式并行 3 Persona × ThreadPoolExecutor → 取最高分
关键设计决策
反应试
Task Agent 只看标准的自然语言描述,看不到具体 expression/regex/threshold。防止"对着答案做题"。
验证零 LLM
7 个确定性验证器完全不依赖 LLM。llm_judge 和 consensus 用独立模型,不是让考生自己批卷。
维度自测
Quantify Agent 生成维度后,自动生成错误输出测试维度的区分度。维度抓不到坏数据 = 无效维度。
校准飞轮
每次用户反馈 → 维度库更新 → 下次量化更精准。任务做得越多,系统对质量标准的理解越深。
实现进展
2026-02-20
架构设计 完成
三层架构讨论(宪法 → Meta → 执行)。6 条红线。原始验证器库设计。冷启动策略。
2026-02-20
MVP 核心实现 完成
单文件 ~1400 行。7 个确定性验证器 + Verify 逻辑 + Standard Agent + Task Agent + 重试循环 + CLI。端到端测试通过(8/8)。
2026-02-20
LLM 验证器 + 反应试 完成
新增 llm_judge(独立模型打分)和 consensus(多模型投票)。Task Agent prompt 隐藏实现细节。结构化反馈替代文本拼接。
2026-02-20
Quantify Agent + 校准系统 完成
Quantify Agent 将模糊需求拆解为可测维度。维度自测机制。calibration.json 记录用户反馈 + 维度命中率。维度库随使用进化。
2026-02-20
监测指标 + Metrics 命令 完成
LLM 调用追踪(按模型分类)。status 命令格式化输出。metrics 命令全局汇总:首次通过率、平均尝试次数、用户满意率、维度命中率、LLM 效率。
2026-02-21
四层智能重试 完成
L1 结构化反馈 → L2 Diagnosis Agent 诊断根因+策略切换 → L3 Decompose/Compose 拆解组合 → L4 Standard Review 标准审查+用户决策。最多 12 次尝试。L1 回归测试通过。
2026-02-21
竞争式并行 完成
3 个 Persona(precise/creative/minimal)通过 ThreadPoolExecutor 并行执行,按 score 取最优。可在任意重试层级启用。
2026-02-21
Input Agent + 任务示例 + 测试套件 完成
Input Agent(自然语言 → task.json,CLI + 交互模式)。3 个新示例(代码生成/文档写作/翻译校验)。34 个单元测试全通过。Calibration seed 数据。GitHub 已推送。
下一步
L2-L4 实战验证 待实现
用更复杂的任务触发四层重试的 L2 诊断、L3 分解、L4 审查。跨任务校准飞轮验证。竞争式并行效果评估。
演进日志
功能
四层智能重试上线。L1 修补 → L2 诊断换策略 → L3 拆解组合 → L4 标准审查。"重试不是再来一次,是换个方式来"。最多 12 次尝试,逐层升级。
功能
竞争式并行上线。3 个 Persona(precise/creative/minimal)通过 ThreadPoolExecutor 真并行,按 score 取最优。subprocess 释放 GIL,实现 CPU 级并发。
洞察
重试层级和人类思维完全一致:先试(L1)→ 再想(L2)→ 再拆(L3)→ 最后质疑前提(L4)。每一层不只改策略,更是对问题本质的更深理解。
洞察
"不可量化"是假命题。主观判断 = 大量微观客观标准的叠加。分解维度 + 多评审者共识 + 校准循环,可以逼近任何人类判断。
功能
Quantify Agent 上线。将模糊需求自动拆解为 llm_judge + consensus 维度。维度自测机制确保区分度。calibration 飞轮启动。
修复
llm_judge 缺少任务上下文导致误判。修复:自动注入 task description,让评审 LLM 理解"过滤是需求,不是数据丢失"。
修复
consensus checker 解析失败。模型返回 "YES" 纯文本而非 JSON。修复:fallback 解析 yes/no/pass/fail 文本响应。
架构
初始架构确立。宪法 6 条红线。MVP 砍掉 Input Agent + Meta 层 + 并行重试,保留最短链路验证核心假设。
文档
💡
设计哲学与核心洞察 约 3.4k 字,阅读约 7 分钟
为什么做 Auto Agent、验证零 LLM、反应试、宪法系统、校准飞轮
📋
系统架构全貌 约 8k 字,阅读约 17 分钟
三层架构、7 Agent 编排、9 Checker、四层重试、数据流、文件结构
MVP 验证报告 约 4.4k 字,阅读约 9 分钟
mvp-001 测试任务、13/13 一次通过、性能数据、假设验证
🔄
四层智能重试详解 约 8.7k 字,阅读约 18 分钟
L1-L4 逐层详解、竞争式并行、完整 trace 示例、风险应对