第27章:评测体系——Faithfulness、Relevancy 与回归测试
2026/6/14 15:51:34 网站建设 项目流程

版本:LlamaIndex 0.12.x
定位:让效果优化有指标,而不是凭感觉
源码关联:llama_index.core.evaluation


1. 项目背景

某团队的知识库问答系统上线三个月后,产品经理在一次复盘会上抛出一个目标:"把回答质量提升 20%。"团队信心满满地投入了三周优化——把 chunk_size 从 512 调到 256、把 Embedding 模型从 text-embedding-ada-002 换成 text-embedding-3-large、重构了 Prompt 模板加入了强制引用约束、还引入了 Cohere Rerank 做重排。开发负责人老张在周会上拍着胸口说:“现在回答明显靠谱多了。”

但当 PM 追问"那现在提升了多少?"时,会议室陷入了尴尬的沉默——没有人能给出量化答案。没有基线数据,没有前后对比,三周的努力只能用"感觉"来描述。更致命的是,某次 Prompt 优化上线两周后,运维部反馈——他们经常问的"数据库连接池最大连接数怎么配置?“这个核心问题,答案从原先准确的"200"变成了编造的"建议 50-100”,但直到用户投诉才被发现。

团队陷入了典型的"凭感觉优化"陷阱,它带来三个恶果:

(1) 无基线。不知道当前系统的真实质量水平是多少——忠实性多少分、相关性多少分、幻觉率多高。优化效果就成了一个不可证伪的命题:好了可以说"优化生效了",差了可以说"测试数据偏差"。

(2) 无回归。每次改动(Prompt、ch

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询