LLM 黑话手册：从 Token 到 Agent，一次搞懂 AI 时代的核心概念-创锋一号

LLM 黑话手册：从 Token 到 Agent，一次搞懂 AI 时代的核心概念

你用过 ChatGPT、Claude 或 DeepSeek 吗？如果有，你可能遇到过这些问题：

明明跟 AI 聊得好好的，怎么突然它就不记得我刚才说过什么了？
为什么有些人说「给 AI 加个 RAG 就能解决」，RAG 是什么？
朋友圈都在说 Agent、Fine-tuning、Context Window…… 这些词到底什么意思？

别担心。这篇不是技术文档，而是一张地图。读完你就能听懂 AI 圈的人在聊什么。

一、最基础的概念（每个 AI 用户都应该知道）

Token：AI 看到的「单词碎片」

当你打了一句话给 AI，它不是按字母读的，而是先切成小块。

"我喜欢吃苹果" → ["我", "喜欢", "吃", "苹果"] （拆成 4 个 Token）

Token 可以是一个字、一个词、或者一个标点。英文里大约1 个英文单词 ≈ 1.3 个 Token，中文里1 个汉字 ≈ 1-2 个 Token（据 OpenAI 官方文档及主流 Tokenizer 统计）。

为什么你要知道它：AI 的收费是按 Token 算的，你发的每句话和 AI 回的每句话都要消耗 Token。你写一篇 2000 字的文章，大概需要 3000-4000 Token。

概念	一句话解释
Token	AI 看到的"单词碎片"，也是计费单位
输入 Token	你发给 AI 的内容（问题 + 上下文）
输出 Token	AI 回复你的内容

Context / 上下文窗口：AI 的短期记忆

你有没有跟 AI 聊了很久，突然它说「抱歉，我不记得你之前说过什么了」？

这不是 AI 笨，而是它的短期记忆有上限。这个上限就叫上下文窗口（Context Window）。

早期的 GPT-3.5：约 4K Token（差不多一篇短文的长度）（据 OpenAI 2023 年技术文档）
GPT-4：约 32K-128K Token（可以记住一本书的对话）（据 OpenAI 模型规格说明）
Claude、DeepSeek V4：达到1M Token（可以记住《三体》三部曲的体量）（据 Anthropic 和 DeepSeek 官方公告）
Gemini：最长到2M Token（据 Google DeepMind 技术报告）

一个具体的例子：你把一份 100 页的 PDF 丢给 AI，让它总结。如果它的上下文窗口只有 32K，它只能读到前几十页——后面的内容它根本"看不到"。如果它有 1M 窗口，整份 PDF 都能一口气读完。

💡上下文窗口 ≠ 记忆力。窗口只是它能"看到"的范围——你说的话在窗口里它就记得，滑出去了就忘了。下面要讲的Memory解决的就是这个问题。

Prompt：你怎么说，AI 怎么答

Prompt（提示词）就是你发给 AI 的那段话。看似简单，但同样的 AI，不同的 Prompt 能得到完全不同的结果。

不好的 Prompt：

帮我写一篇文章

好的 Prompt：

帮我写一篇 800 字的中文科普文章，面向完全不懂 AI 的读者，解释什么是大语言模型。语气轻松友好，多用类比。

Prompt 的技巧已经成为一门学问，叫Prompt Engineering（提示工程）。高级玩法包括：

角色设定：“你是一位资深物理老师……”
格式限定：“用表格回答，分三列……”
思维链：“请先分析问题，给出推理过程，再给出最终答案”

Temperature：控制 AI 的"创造力"

当你让 AI 写一首诗，你希望它每次写得不一样；当你让 AI 写一段代码，你希望它每次输出稳定。决定这种"随机程度"的参数就是Temperature（温度）。

Temperature = 0：几乎每次都输出最确定的答案，适合写代码、数学计算
Temperature = 0.7：有一定随机性，适合日常对话、内容创作
Temperature = 1.0+：高度随机，适合头脑风暴、创意写作

💡 一些产品中会把 Temperature 称为"创造力"或"多样性"滑块。简单记忆：越低越稳定，越高越有创意。

二、让 AI 更聪明的技术（产品经理必看）

RAG：让 AI 边答边翻书

**RAG（Retrieval-Augmented Generation，检索增强生成）**是当前最热门的 AI 技术之一。听起来复杂，但原理很简单：

普通的 AI 回答问题，全靠"脑子里的知识"（训练时学到的）。
RAG 相当于给 AI 配了一个书架——它回答问题前，先去书架上翻相关的内容，读完了再回答。

举个例子：你问 AI「我们公司去年的营收是多少？」

没有 RAG：AI 可能瞎编一个数字（因为它的训练数据里没有你们公司内部数据）
有了 RAG：AI 先去公司的知识库搜索，找到去年的财报，读完后给出准确答案，并告诉你「这是从 Q4 财报第 3 页看到的」

RAG 的三个步骤（简单理解）：

检索：收到问题，去数据库里找相关文档
增强：把找到的文档塞进上下文窗口，作为参考材料
生成：AI 阅读材料后作答

为什么 RAG 重要：它解决了 AI 最头疼的问题——知识更新。训练一次 AI 要花几千万美元，不可能每周都重新训练。但用 RAG，你只需要更新那个"书架"（数据库），AI 就能回答最新的问题。

RAG vs Fine-tuning：RAG 是让 AI 现场翻书，Fine-tuning 是让 AI 回炉重造。下面讲 Fine-tuning。

Fine-tuning：给 AI 上培训班

Fine-tuning（微调）是在已有的大模型基础上，用你自己的数据再做一次小规模训练。

还用人来类比：

基础模型（如 GPT-4、Claude）：相当于一个读过万卷书的大学毕业生，什么都知道一点
Fine-tuning：相当于送这个毕业生去参加一个为期三个月的专业培训，让他成为某个领域的专家

什么场景需要 Fine-tuning：

场景	为什么不直接用 RAG	为什么用 Fine-tuning
让 AI 模仿特定写作风格	RAG 给再多范文，风格也不够稳定	Fine-tuning 后风格高度一致
让 AI 学会公司内部术语	RAG 可以临时查，但反应慢	Fine-tuning 后变成"本能"
让 AI 按特定格式输出	可以用 Prompt 约束，但偶尔会跑偏	Fine-tuning 后稳定输出

Fine-tuning 的代价：贵、慢、而且每次更新都需要重新训练。所以行业里的普遍做法是：能用 RAG 解决的问题，不要 Fine-tuning。

Memory：让 AI 记住你是谁

你有没有在每个新对话里都要重新告诉 AI「我叫小明，我是做设计的」？

这就是缺乏长期记忆的问题。目前的大模型本身没有"记人"的能力——每次新对话它都是"失忆"状态。

Memory（记忆）就是解决这个问题的技术。它的实现方式比你想象的简单：

把重要的信息（你的名字、偏好、历史行为）存进一个数据库，每次启动新对话时，自动把这些信息塞进上下文窗口。

市面上已经有很多产品在做这件事：

ChatGPT 的 Memory 功能：你告诉它你的信息，它记住后跨对话使用
Claude 的 Projects：可以在项目级别设定固定知识
各种 AI 应用：记住你的阅读偏好、购物习惯、语言选择

💡Memory、Context、RAG 的区别：
Context Window：一次性能"看到"多长的对话（硬件限制）
Memory：跨对话保存重要信息（长期存储）
RAG：根据问题实时查找相关资料（按需检索）

三、AI 的"智能"升级（开发者关注）

Agent：让 AI 自己动手做事

普通的 AI 对话是你问它答。Agent（智能体）则更进一步——它自己去执行任务。

没有 Agent：

你：帮我分析这个 Excel 文件的数据
AI：好的，请你先上传文件（卡住了，因为你不能上传）

有 Agent：

你：帮我分析这个 Excel 文件的数据
Agent：好的，我先连接数据库，拉取数据，运行分析脚本，然后把结果汇总给你
（自动执行：调用数据库 → 运行 Python → 输出报告）

一个 Agent 通常包含三个核心能力：

感知：理解你的目标和当前环境
规划：拆解任务，确定执行步骤
行动：调用工具（查数据库、发邮件、操控软件）来完成任务

目前最典型的 Agent 应用是编程助手——你让它写一个功能，它自己搜索文档、写代码、跑测试、修 Bug，直到功能完成。

💡AI vs Agent：AI 是"大脑"，Agent 是"大脑 + 手和脚"。

Tool Use / Function Calling：给 AI 配工具

Tool Use（工具调用）是 Agent 的基础能力。它让 AI 不再只是"说话"，而是能调用外部工具。

比喻：你给一个天才研究员配了一台电脑、一个计算器、和一部电话——他就能做远超自己能力的事情。

常见的工具：

工具类型	例子	用途
搜索	联网搜索	获取实时信息
计算	运行 Python 代码	做精确的数学计算
数据库	查询 SQL	获取业务数据
API	调用外部服务	发邮件、查天气、下单

Chain of Thought：让 AI 学会"先想再答"

你有没有发现，有时候让 AI「一步步思考」它的答案会更准确？

Chain of Thought（思维链，CoT）就是这个技巧的正式名字。它让 AI 在给出最终答案之前，先展示它的推理过程。

没有 CoT：

Q：一家商店以 60 元买入一件商品，以 80 元卖出，然后又以 90 元买入，以 100 元卖出。赚了多少钱？
A：10 元 ❌

有 CoT：

Q：一家商店以 60 元买入一件商品，以 80 元卖出，然后又以 90 元买入，以 100 元卖出。赚了多少钱？请一步步思考。
A：
第一次交易：买入 60 → 卖出 80，赚 20 元
第二次交易：买入 90 → 卖出 100，赚 10 元
总共：20 + 10 = 30 元 ✅

这就是在 Prompt 里加一句"请一步步思考"为什么这么有用。OpenAI 的 o1、DeepSeek R1 等模型已经把这个能力内化成了模型本身的思维模式。

Hallucination：AI 也会"编故事"

你有没有遇到过 AI 一本正经地给出一个看起来合理、但实际上是错误答案的情况？这就是Hallucination（幻觉）。

大模型本质上是"根据概率预测下一个词"的机器——它没有"事实核查"的机制。当它不确定答案时，它不会说"我不知道"，而是会自信地编造一个听起来合理的回答。

常见的幻觉类型：

类型	例子	原因
事实错误	说某本书的作者是错的	训练数据中的信息模糊
编造引用	凭空生成一篇不存在的论文	模型"以为"这是合理的输出
逻辑矛盾	前后两句话自相矛盾	长对话中丢失了前文
数字不准	给出似是而非的数据	模型对精确数字天生不擅长

怎么应对：让 AI 注明信息来源、使用 RAG 提供参考资料、关键信息人工核对。不要把 AI 当"搜索引擎"用，而要当"需要监督的助手"用。

四、常见 AI 产品与平台概念

除了技术概念，日常还会遇到一堆产品名称和平台名词。这里集中解释几个容易混淆的。

OpenAI / ChatGPT：掀起 AI 浪潮的公司和产品

OpenAI是美国 AI 公司，开发了GPT 系列模型。他们的产品包括：

ChatGPT：面向大众的 AI 聊天产品，目前使用 GPT-5 系列模型
GPT-4o / GPT-5.5：模型版本号，数字越大越新越强
o1 / o3：OpenAI 的"推理模型"，擅长数学和逻辑，特点是"先想后答"
DALL·E：AI 生图工具

Claude：另一个顶级 AI 模型

Claude是 Anthropic 公司开发的 AI 模型，和 GPT 是直接竞争对手。主要特点：

长上下文：Claude 率先做到 200K Token 窗口，现在最高 1M
安全性优先：Anthropic 的核心理念是做"有用且安全的 AI"
Claude Code：面向开发者的编程助手，可以直接在终端里写代码、操作文件

Gemini：Google 的 AI 全家桶

Gemini是 Google 的 AI 模型系列。最大特点是原生多模态——出生就支持看图、看视频、听音频，不像其他模型是后来才加上去的。

DeepSeek：中国的开源挑战者

DeepSeek是中国 AI 公司，以"强模型+极低价格"受到关注。V4 版本在多项编程能力评测（如 SWE-bench、HumanEval）中达到全球开源第一，API 价格约为 GPT-4o 的 1/9（据 DeepSeek 官方定价页面）。也是首个在华为芯片上完成训练的万亿参数模型（据 DeepSeek 技术论文）。

各种"Bot"和"Agent"产品

现在市面上有大量 AI 产品名字里带Bot或Agent：

Chatbot（聊天机器人）：最基本的 AI 对话产品，一问一答
AI Agent / AI Bot（智能体）：能主动执行任务的 AI，不止是聊天
Clawbot / 各类定制 Bot：很多公司会封装自己的 AI Bot，名字随意起，但本质上都是「大模型 + 特定功能 + 定制知识库」的组合

判断一个 Bot 是否靠谱的方法：问自己三个问题——

它的底层用的是哪个模型？（GPT / Claude / DeepSeek / 自研？）
它有没有接入外部知识（RAG）？还是纯靠模型本身的训练知识？
它有什么工具可以用？（联网搜索？文件处理？API 调用？）

开源 AI 工具生态（LLMOps）

围绕大模型已经形成了一个庞大的开源工具生态，业内通常称为LLMOps（大模型运维）。简单说就是：

大模型是"发动机"，各种开源工具就是"方向盘、轮胎、仪表盘"——把它们组合起来，才能造出一辆能跑的车。

常见的开源 AI 工具包括：

工具	是什么	用来干嘛
LangChain	AI 应用开发框架	把 RAG、Agent、Tool Use 串起来
LlamaIndex	数据连接器	方便地把各种数据源接进 AI
Ollama	本地跑模型工具	在自己的电脑上运行开源模型
HuggingFace	AI 模型"应用商店"	下载和分享开源模型
AutoGPT	自主 Agent 项目	让 AI 自己设定目标并执行

为什么不直接用大模型厂商的产品？

因为很多时候你需要自己控制数据、定制流程、降低成本。这套开源工具生态让你可以用 DIY 的方式构建自己的 AI 系统，而不必完全依赖 OpenAI 或 Anthropic。

五、名词关系一览

所有概念不是孤立的，它们之间的关系是这样的：

┌─────────────────────┐ │ 大语言模型 (LLM) │ │ (GPT / Claude / DS) │ └──────────┬──────────┘ │ ┌────────────────┼────────────────┐ ▼ ▼ ▼ ┌──────────┐ ┌───────────┐ ┌────────────┐ │ 输入的 │ │ 对话的 │ │ 能力扩展 │ │ 单位 │ │ 范围 │ │ │ ├──────────┤ ├───────────┤ ├────────────┤ │ Token │ │ Context │ │ RAG │ │ │ │ Window │ │ Fine-tune │ │ Prompt │ │ Memory │ │ Tool Use │ │ │ │ │ │ Agent │ └──────────┘ └───────────┘ └────────────┘

一句话版：

Token是 AI 理解语言的"基本单位"，Prompt是你跟 AI 说话的方式。Temperature控制 AI 的"创造力"。Context Window是 AI 一次性能记住多长对话，Memory让它跨对话也能记住你。RAG让 AI 可以现场查资料，Fine-tuning则是给它做专项培训。Agent让 AI 从"回答问题"进化到"主动做事"，Chain of Thought让它学会"先想后答"，而Hallucination提醒你 AI 也会"编故事"——需要你保持判断力。

写在最后：按角色回顾

AI 名词层出不穷——说明这个行业正在快速成型。但本质上，每个名词背后都是同一个问题：怎么让机器更好地理解人类、帮助人类。

不同的角色，可以从这份手册中重点关注不同的概念：

你的角色	优先关注	为什么
普通用户	Token、Context Window、Prompt、Hallucination	日常使用中直接相关的概念，理解了就能更好地使用 AI
产品经理	RAG、Fine-tuning、Memory、Temperature	决定产品策略和技术选型的核心知识
开发者	Agent、Tool Use、Chain of Thought、开源工具生态	构建 AI 应用的技术基础

下次再看到 AI 新名词，你可以拆解它：

它解决的是什么问题？
它是在改进输入（Prompt）、增强知识（RAG）、还是扩展能力（Agent）？
它和我有什么关系？

带着这三个问题，你就不会被下一个新名词搞晕了。

这篇文章面向零基础读者，力求通俗。如有技术细节上的不准确，欢迎指正。

企业官网建设流程全解析