量化标准 + 自动验证 + 重试循环 + 校准进化。人类只审批规则,不审结果。
python auto-agent.py run examples/mvp-001/
Verify 失败 → 四层智能重试:L1 修补 → L2 诊断换策略 → L3 拆解组合 → L4 标准审查(最多 12 次)
传统重试在同一思路打转。每一层升级不只是策略变化,更是对问题本质理解的深化。