第9章:Prompt工程实战——让回答更稳定

📅 2026/6/21 14:27:34
第9章:Prompt工程实战——让回答更稳定
1. 项目背景业务场景某数据团队每天要给CTO发一份日报,汇总当天各部门的关键指标。日报脚本的工作流程是:从数据库拉数据 → 填进一个Markdown模板 → 发给CTO。但产品经理发现了一个痛点——数据是客观的,但"结论"部分全靠人工写,不同人写的结论质量参差不齐。技术经理提议:"让大模型根据数据生成结论。"团队一拍即合,做了一版Prompt:“请根据以下数据写一段结论性文字。”然后神奇的事情发生了——同样的数据,问三次得到三种完全不同的结论:第一次写得很好,第二次把增长说成了下降,第三次直接编了个不存在的指标。CTO看到后只回了一句话:“这日报,我不敢用。”痛点输出不稳定:同样的输入、同样的模型,每次生成的答案不同——对业务来说这是不可接受的。格式不统一:有时输出Markdown格式,有时输出纯文本,有时带HTML标签,下游程序无法稳定解析。内容不可控:模型偶尔会"自由发挥",编造不存在的数字、引用不存在的政策,在日报场景下这是灾难。缺乏迭代方法:Prompt改了一个词效果变好了,但团队记不住改了哪里。Prompt质量靠"感觉",没有版本管理和回归测试。一句话总结:Prompt不是简单的自然语言指令,