Workflow 系列（05）：评测体系——三层测试结构与 Trace 追踪

📅 2026/7/3 1:47:58

为什么 Workflow 需要独立的评测体系传统软件测试覆盖代码正确性。Workflow 多了两层不确定性：LLM 输出不确定：同一个输入，不同运行结果可能不同跨步骤依赖：Phase 3 的问题可能在 Phase 7 才暴露，排查链路长没有评测体系，Workflow 修改后只能靠完整端到端验证：慢、贵、覆盖不全。三层测试把这个问题分解。三层评测结构Layer 3：端到端测试（Workflow 级）从触发到完成的完整链路测试用例：eval/cases.yaml 指标：完成率、Phase 4 平均轮次、人工门触发率 Layer 2：集成测试（Phase 级）跨 Step 的数据流是否正确传递跨 Phase 的路由逻辑是否正确 Layer 1：单元测试（Step 级）每个子 Agent 的输出是否符合输出契约不调用真实 LLM，只验证 JSON Schema测试优先级：Layer 1 应该是最多的，运行最快，能在秒级发现契约问题。Layer 3 运行最慢、成本最高，只在修改影响主链路时跑。Layer 1：Step 级单元测试单元测试的目标：验证子 Agent 输出的 JSON 结构是否符合预期契约，不需要真实的 LLM 调用。# tests/unit/test_phase3_output.pyimportjsonfrompathlibimportPathdeftest_analysis_output_schema():"""Phase 3 的输出文件必须符合 analysis_final.json 的 Schema"""output=json.loads(Path("test_fixtures/phase3/analysis_final.json").read_text())# 必填字段assert"passed"inoutputassertisinstance(output["passed"],bool)assert"confidence"inoutputassert0.0=output["confidence"]=1.0assert"root_cause"inoutputassertisinstance(output["root_cause"],str|type(None))assert"evidence"inoutputassertisinstance(output["evidence"],list)# 失败时的必填字段ifnotoutput["passed"]:assert"error"inoutputassertoutput["error"]# 不能是空字符串deftest_fix_candidate_output_schema():"""Phase 4 每个候选的输出文件 Schema"""forcandidatein["candidate_a","candidate_b","candidate_c"]:output_file=Path(

新闻详情

相关阅读

微前端样式隔离：别让一个子应用改坏全站按钮

如何评价 Anthropic 发布的 Claude Sonnet 5？

基于CLIP的文本可控PET医学影像降噪技术研究

shein C++ 后端面经：几乎整场都在追 Redis、一致性和高并发系统设计

达梦、人大金仓做了二十年，为什么干不过成立没几年的 OceanBase？

显存还没爆，大模型先崩了？你的 KV Cache 正在悄悄杀掉你的显存预算

微信小程序音乐播放平台开发实战与优化

效率直接起飞！高效论文写作全流程AI论文平台推荐（2026 最新）

为什么workbuddy连win+D显示桌面都做不到，Claude和Codex却可以？这里面是安全的取舍

iOS自动化测试：基于facebook-wda与weditor的稳定元素定位实战

AI Agent五大设计模式解析与实战优化

AutoRaise终极指南：3分钟掌握macOS鼠标悬停自动激活窗口技巧

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！