第27章：评测体系——Faithfulness、Relevancy 与回归测试-创锋一号

版本：LlamaIndex 0.12.x
定位：让效果优化有指标，而不是凭感觉
源码关联：llama_index.core.evaluation

1. 项目背景

某团队的知识库问答系统上线三个月后，产品经理在一次复盘会上抛出一个目标："把回答质量提升 20%。"团队信心满满地投入了三周优化——把 chunk_size 从 512 调到 256、把 Embedding 模型从 text-embedding-ada-002 换成 text-embedding-3-large、重构了 Prompt 模板加入了强制引用约束、还引入了 Cohere Rerank 做重排。开发负责人老张在周会上拍着胸口说：“现在回答明显靠谱多了。”

但当 PM 追问"那现在提升了多少？"时，会议室陷入了尴尬的沉默——没有人能给出量化答案。没有基线数据，没有前后对比，三周的努力只能用"感觉"来描述。更致命的是，某次 Prompt 优化上线两周后，运维部反馈——他们经常问的"数据库连接池最大连接数怎么配置？“这个核心问题，答案从原先准确的"200"变成了编造的"建议 50-100”，但直到用户投诉才被发现。

团队陷入了典型的"凭感觉优化"陷阱，它带来三个恶果：

(1) 无基线。不知道当前系统的真实质量水平是多少——忠实性多少分、相关性多少分、幻觉率多高。优化效果就成了一个不可证伪的命题：好了可以说"优化生效了"，差了可以说"测试数据偏差"。

(2) 无回归。每次改动（Prompt、ch

企业官网建设流程全解析

1. 项目背景

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

1. 项目背景

热门文章

文章分类

标签云

相关文章

EHCI中断处理与设备数据结构实战解析：从手册到代码

题解：学而思编程 解码方法

题解：学而思编程 股票买卖

需要专业的网站建设服务？

题解：学而思编程解码方法

题解：学而思编程股票买卖