第11章：Embedding入门——把文档变成可检索知识-创锋一号

业务场景

某中型制造企业的技术知识库经过10年积累，沉淀了大约5000份Markdown格式的技术文档，涵盖设备手册、维修指南、故障代码库和SOP标准作业流程。这些文档平铺在文件服务器上，查找全靠Windows搜索——搜文件名还好，但搜内容就抓瞎了。

维修工程师老张在一次抢修中的典型经历：某台数控机床报了故障代码E2027，他在文件夹里搜索"E2027"，没结果。又问同事，没人记得在哪份文档里。最后翻纸质手册花了45分钟才找到对应的维修步骤。

IT部门决定用大模型做智能问答，但很快发现模型无法"知道"公司内部文档的内容。技术经理提出做RAG（检索增强生成），但第一步是要把文档变成机器可检索的形式——这就是Embedding。

痛点

一句话总结：Embedding就是把"语义"翻译成"数学"，让计算机能用向量距离

企业官网建设流程全解析