本文将带你从零开始,通过5个核心步骤,教你如何构建一个对自己有用的Agent。文章首先强调Agent只有在服务真实问题时才有价值,接着介绍了Agent的核心工作循环和五种核心工作流模式,包括提示链、路由、并行化、编排器-工作者和评估器-优化器。随后,详细讲解了如何构建Agent,包括明确目标结果、所需信息、允许动作和必须遵守的规则,并推荐使用Anthropic或OpenAI框架进行开发。此外,文章还重点讨论了工具的使用、记忆的设计以及如何让Agent在真实场景中稳定运行。最后,总结了构建Agent的关键原则,并给出了三个可执行的入门建议,帮助初学者快速上手大模型Agent开发。
如果你愿意,读完这篇文章,今天就可以做出一个对自己有用的 Agent。
但有一件事需要先说清楚:
为了“做 Agent 而做 Agent”没有意义,Agent 只有在服务一个真实问题时,才有价值。
所以,这篇文章不打算教你“概念”
读完这篇文章,你应该能做出自己的第一个 Agent,并且知道什么时候该保持简单,什么时候才值得加复杂度。
1. Agent 如何工作
先理解这些基础很重要。否则你根本不知道自己到底需不需要 Agent。
所有 Agent 都共享一个核心循环:
用户输入 → LLM 思考 → LLM 决定是直接回答还是调用工具 → 如果调用工具,就执行工具并把结果喂回模型 → 重复这个过程
这就是 Agent 的基本骨架。LLM 是负责推理的“大脑”;工具是负责执行动作的“手”,比如计算器、网页搜索、文件读写;记忆则像“记事本”,记录到目前为止发生了什么。
无论你用 LangGraph、CrewAI、Anthropic SDK,还是 OpenAI Agents SDK,这些框架都是在这个循环外面包了一层抽象,并没有改变它的本质。
增强型 LLM
普通 LLM 接收文本,再输出文本。增强型 LLM 则额外具备三种能力:
- • 工具:模型可以调用的函数,比如计算器、数据库、API、文件操作等。Anthropic 和 OpenAI 都通过 JSON schema 暴露工具;Anthropic 使用
input_schema,OpenAI 则把函数包装成带parameters的 function object。 - • 检索:从外部来源拉取相关信息,比如搜索引擎、文档、向量数据库。
- • 记忆:通过消息历史或其他持久化存储,在多轮交互中保留信息。
工作流与真正的 Agent
选择方案时,工作流和 Agent 的区别非常重要。
工作流是确定性的。执行路径由你的代码控制,同样的输入总会走同样的路径。它适合步骤固定、定义清楚的任务,而且成本更低,因为 LLM 调用次数更少。
Agent 是动态的。下一步由 LLM 决定,它可能反复调用工具。它更适合开放式任务,但成本也更高。
所以判断自己是否需要 Agent,最好从一个简单工作流开始。只有当你发现固定流程不够用时,再把它升级成自主 Agent。
2. 五种核心工作流模式
说实话,大多数问题其实并不需要“完全自主”的 Agent 才能解决。
下面这五种模式,Anthropic 已经系统总结过,也被广泛采用,基本覆盖了很多常见场景。
每一种模式的基础,都是一个 增强型 LLM。
模式 1:Prompt Chaining(提示链)
把一个任务拆成连续步骤。每一次 LLM 调用,都处理上一步的输出。可以在步骤之间加入程序化的“关卡”,用来检查质量。
适用场景:任务能自然拆成固定子任务。它用速度换准确性,因为每一次 LLM 调用都更简单。
例子:先生成营销文案,再翻译;先写大纲,检查是否覆盖关键主题,再写完整文档。
模式 2:Routing(路由)
先对输入分类,再路由到专门的处理器。每个处理器都有自己的优化 Prompt。
适用场景:不同输入类别需要完全不同的处理方式。典型例子是客服工单分流。
模式 3:Parallelisation(并行化)
同时运行多个 LLM 调用。Sectioning 会把任务拆成相互独立的子任务并行处理;Voting 则会让多个模型或多次调用处理同一个任务,再聚合结果,提高关键判断的置信度。
适用场景:子任务彼此独立,或者你需要对关键决策形成共识。
模式 4:Orchestrator-workers(编排器-工作者)
一个中心 LLM,也就是编排器(orchestrator),动态拆解任务并把子任务交给工作者模型(worker LLM)。和并行化不同,这里的子任务不是预先定义好的,而是编排器在运行时决定的。
适用场景:任务结构事先无法预测。比如跨多个文件生成代码、做研究任务、写报告。
模式 5:Evaluator-optimiser(评估器-优化器)
一个 LLM 负责生成输出,另一个 LLM 负责评估并给反馈。如果评估不通过,反馈会回到生成环节。这个循环会一直重复,直到满足质量标准。
适用场景:评估标准清楚,而且迭代优化能带来明显收益,比如翻译、代码生成和写作任务。
3. 构建你的 Agent
这就是你真正想看的部分。我们开始。
怎样把“我想让 Agent 做 XYZ”变成真实可运行的东西?
最简单的理解方式是:
- 写下它的工作
- 决定它需要哪些工具
- 告诉模型应该如何表现
- 用 5 个真实例子测试它
- 只有当它失败时,才增加复杂度
构建第一个 Agent,不需要先掌握五个框架。对我和你来说,最好的起点通常是:
- • Anthropic:如果你想要一个像“能干的操作员”一样工作的 Agent,能使用工具、文件、shell 命令、网页动作,并且擅长编码工作流。
- • OpenAI:如果你想要一个干净的开发者 SDK,带托管工具(hosted tools)、handoffs、护栏(guardrails),并且有通往生产环境的简单路径。
这篇指南主要关注这两个方向。
最简单的心智模型
构建 Agent 时,先回答四个问题:
- 目标结果是什么?
Agent 最终应该产出什么?
例子:
- • “研究一个主题并写摘要”
- • “阅读我的笔记并转成闪卡”
- • “查看客服请求并正确分流”
- • “比较产品并给出最佳选择”
- • “审阅我的内容,并按我的语气重写”
- 它需要哪些信息?
它需要网页搜索、文件、数据库、电子表格、CRM,还是只需要用户消息?
- 它被允许采取哪些动作?
它只能回答吗?可以搜索吗?可以编辑文件吗?可以发邮件吗?可以写代码吗?可以调用你的自定义函数吗?
- 它必须遵守哪些规则?
语气、格式、约束、安全边界、不确定时怎么做,以及“好结果”长什么样。
只要你能清楚回答这四个问题,通常一天内就能做出第一个版本。
一个很快能用起来的小技巧是:把你的想法交给 LLM,让它认真思考,并替你回答上面这些问题。
换句话说,你可以先让模型帮你把目标、工具、规则和测试案例拆出来,再开始写代码。
先用 AI 设计 Agent,再动手构建
一个非常实用的做法是:在编码之前,先让 Claude 或 ChatGPT 帮你定义 Agent。
可以直接粘贴这样的 Prompt:
I want to build an AI agent.My goal:[描述你希望他做什么]The user will ask things like:[添加5个真实实例]The agent should have access to:[网页搜索 / 文件 / 计算器 / 自定义 API / 不使用其他任何工具]It must always:[列出不可妥协的规则]It must never:[列出边界(范围)]Please turn this into:1. A clear agent spec2. A system prompt3. A tool list4. A first version roadmap5. 10 test cases这一个 Prompt 就能帮初学者把模糊想法变成可构建计划。
Agent 设计的入门公式
每次都使用这个结构:
Agent = Role + Goal + Tools + Rules + Output format
例子:
- • Role:加密项目研究助手
- • Goal:找到准确信息,并清晰总结
- • Tools:网页搜索、文件搜索、计算器
- • Rules:引用来源、不猜测、标注不确定性
- • Output format:摘要、风险、机会、最终判断
这就是大多数有用 Agent 的基础。
从这五类入门 Agent 开始
如果你是新手,不要一上来就做 multi-agent swarm。先从下面五类中的一种开始。
- 研究 Agent
适合需要 Agent 收集信息并总结的场景。
例子:
- • “研究踝关节扭伤最好的康复训练”
- • “查找某个加密协议的最新进展”
- • “比较三台笔记本电脑”
需要:
- • 网页搜索
- • 如果要使用你自己的文档,则需要文件搜索
- • 清晰的输出格式
- 内容 Agent
适合写作、重写、总结或转换内容。
例子:
- • “把我的笔记变成简报”
- • “按我的品牌语气重写这段”
- • “总结这份会议纪要”
需要:
- • 通常只需要一个强 system prompt
- • 可选的文件访问
- • 你偏好风格的示例
- 工作流 Agent
适合让 Agent 执行可重复的业务流程。
例子:
- • “给客服工单分类”
- • “把销售线索路由到正确类别”
- • “检查表单提交内容,并生成回复草稿”
需要:
- • 清晰类别
- • 规则
- • 有时需要自定义工具或 API 调用
- 个人知识 Agent
适合让 Agent 基于你的文档回答问题。
例子:
- • “只用我的 PDF 回答”
- • “搜索我的笔记并解释这个主题”
- • “找到所有提到这个客户的内容”
需要:
- • 文件搜索或 RAG
- • 明确要求它只基于提供的材料回答
- 操作型 Agent
适合让 Agent 在某个环境里采取行动。
例子:
- • “读取这些文件并编辑它们”
- • “搜索网页、整理发现,并保存报告”
- • “运行 shell 命令,帮我调试代码”
需要:
- • 工具
- • 权限
- • 强安全边界
Anthropic:理解第一个 Agent 的最简单方式
当你希望模型使用工具,并在某个环境里操作时,Anthropic 的 Agent 工具尤其有帮助。Claude Code 在 2025 年 2 月发布,后来 Claude Code SDK 在 2025 年 9 月更名为 Claude Agent SDK。2026 年 3 月 GitHub 上列出的当前 release 是 v0.1.50。
什么时候 Anthropic 更适合
如果你想要的 Agent 需要:
- • 读取、写入、编辑文件
- • 使用 shell 命令
- • 搜索网页
- • 使用 MCP 工具
- • 很好地处理编码和技术任务
- • 像一个能一步步操作的助手
那就优先选择 Anthropic。
你用 Anthropic 实际上在做什么
对初学者来说,你只是在做三件事:
- 给 Claude 一个工作
- 给 Claude 一些工具
- 让 Claude 循环执行,直到任务完成
就是这样。
入门示例:研究与总结 Agent
假设你想要:“一个能够研究某个主题并为我写出一份清晰报告的 Agent”
构建计划会变成:
- • Role:资深研究助手
- • Goal:找到准确信息并清晰总结
- • Tools:网页搜索,也许再加文件访问
- • Rules:引用来源,不确定时说明,保持简洁
- • Output:要点摘要 + 关键风险 + 结论
这会变成你的 system prompt:
SYSTEM_PROMPT = '''You are a careful research assistant.Your job is to help the user research topics accurately.Use tools when needed.Do not guess.If information is uncertain or incomplete, say so clearly.Always produce:1. Summary2. Key findings3. Risks or uncertainty4. Final conclusion'''现在用户可以问:
- • “调研最新的 AI Agent SDK”
- • “比较 Anthropic 和 OpenAI,看看哪个更适合初学者构建 Agent”
- • “找到三个高质量的信息来源并进行总结”
这已经是一个真实 Agent。
入门示例:基于文件的写作 Agent
也许你想要:“阅读我的笔记,并用我的写作风格将其改写成一篇结构清晰的文章”
那么设计会变成:
- • Role:写作助手
- • Goal:把粗糙笔记变成润色后的成稿
- • Tools:文件读取,也许还有文件写入
- • Rules:保留原意,提升清晰度,匹配语气
- • Output:最终文章 + 可选标题建议
这比一个模糊的“内容 Agent”容易构建得多。
构建 Anthropic Agent 前,可以这样问 AI
Help me design an Anthropic agent.My goal is:[目标]I want the agent to be able to:[列出行为]I want the agent to use these tools:[列出工具]I want the final output to look like:[格式化结果]Please create:1. A strong system prompt2. A minimal tool list3. A first version Python example4. 10 test prompts5. Suggestions to improve reliability这个 Prompt 通常能带你走完 80% 的路。
OpenAI:理解第一个 Agent 的最简单方式
OpenAI 在 2025 年 3 月 11 日发布 Agents SDK,同时推出 Responses API,以及网页搜索、文件搜索、computer use 等内置工具。Python 包openai-agents在 2026 年 3 月是 0.13.1 版本。
什么时候 OpenAI 更适合
如果你想要:
- • 非常干净的 Agent API
- • 简单的自定义函数工具
- • 内置托管工具(hosted tools)
- • 专门 Agent 之间的交接(handoffs)
- • 护栏(guardrails)和追踪(tracing)
- • 从原型到生产的平滑路径
那就优先选择 OpenAI。
你用 OpenAI 实际上在做什么
对初学者来说,构建过程就是:
- 创建一个 Agent
- 给它 instructions
- 如果需要,添加 tools
- 用真实用户请求运行它
就是这样。
入门示例:客服分流 Agent
假设你的目标是:“读取收到的支持请求,并判断它们属于计费、技术还是销售问题”
它会变成:
- • Role:客服分流助手
- • Goal:正确分类请求
- • Tools:无,之后也许加 CRM 工具
- • Rules:只能选择一个类别,简要解释
- • Output:类别 + 原因
代码大概是这样:
from agents import Agent, Runneragent = Agent( name="Support Triage Agent", instructions=\"\"\"You classify customer requests.Choose exactly one category:- billing- technical- salesReply with:1. Category2. One sentence explaining why\"\"\",)result = Runner.run_sync(agent, "我这个月的订阅被重复收费了")print(result.final_output)这已经是一个有用的 Agent。
入门示例:添加自定义工具
现在假设你想要:“在需要时为用户计算数值”
from agents import Agent, Runner, function_tool@function_tooldef calculate(expression: str) -> str: import math allowed = {k: v for k, v in math.__dict__.items() if not k.startswith("__")} return str(eval(expression, {"__builtins__": {}}, allowed))agent = Agent( name="Math Helper", instructions="Help the user solve maths problems. Use the calculator tool when needed.", tools=[calculate],)result = Runner.run_sync(agent, "10000 以 5% 的利率复利增长 8 年后的结果是多少?")print(result.final_output)现在这个 Agent 不只是聊天。它会通过工具采取行动。
入门示例:使用托管工具
OpenAI Agents SDK 还支持托管工具(hosted tools),比如网页搜索、文件搜索,以及 SDK 文档里的 code interpreter 辅助函数。
初学者可以把它们理解成“预先做好的能力”,直接挂到 Agent 上,不用从零写。
这意味着你可以构建这样的 Agent:
- • “从网页研究这个主题并总结”
- • “搜索我的文件,并基于文件回答”
- • “运行代码分析这份数据”
构建 OpenAI Agent 前,可以这样问 LLM
Help me design an OpenAI agent.My goal:[目标]The tasks I want it to handle:[列出任务]The tools I think it needs:[列出工具]The output should look like:[输出格式]Please give me:1. A clear agent instruction block2. The simplest first version3. A version with tools if needed4. 10 test prompts5. Common failure modes and how to fix them如何定制 Agent,让它真正做你想要的事
初学者最容易错在这里:他们做出来的是一个通用助手,而不是一个具体 Agent。
用这份清单检查。
- 把工作范围收窄
差:
- • “帮我处理业务上的事情”
好:
- • “把销售电话总结成行动项”
- • “把销售线索分成 hot、warm、cold”
- • “研究加密项目,并输出风险、催化因素和结论”
- 定义输出格式
差:
- • “给我一个答案”
好:
- • “返回:摘要、证据、风险、下一步”
- • “返回 JSON,包含 category、confidence、explanation”
- • “在 5 个标题下返回项目符号列表”
- 给示例
如果你想控制语气、结构或分类质量,示例非常有帮助。
告诉模型:
- • “这里有 3 个优秀输出示例”
- • “这里有 5 个请求分类示例”
- • “请严格按这种风格写”
- 只在需要时添加工具
如果任务只是重写笔记,不要加网页搜索。
如果答案只应该来自 Prompt,不要加文件访问。
每多一个工具,复杂度就会上升。
- 用真实 Prompt 测试,而不是用理想 Prompt
测试时要像真实用户一样输入混乱的问题。
不要只测试:
- • “请对这个技术问题进行分类”
也要测试:
- • “我的账户出问题了,而且一直在被扣费,我该怎么办?”
这时你才会知道 Agent 到底会怎么做。
你的构建路径
Step 1:用一句话描述这个 Agent。
例子:“我想要一个 Agent,把我的粗糙笔记变成干净的每周简报。”
Step 2:让 Claude 或 ChatGPT 把这句话变成:
- • Agent spec
- • system prompt
- • tool list
- • 10 个 test prompts
Step 3:构建最小可用版本。
不要上多 Agent(multi-agent)。不要做复杂记忆机制。除非真的需要,否则不要做 RAG。
Step 4:用 10 个真实例子测试它。
Step 5:一次只改进一件事:
- • Prompt
- • 输出结构
- • 示例
- • 工具
- • 记忆
- • 检索
这个顺序很重要。不要一开始就陷进去。
避免这个错误
最大的错误,是试图构建一个“万能超级 Agent”。
不要从这些东西开始:
- • 网页搜索
- • 文件搜索
- • 数据库访问
- • 记忆
- • 多 Agent 交接(multi-agent handoffs)
- • 复杂护栏(guardrails)
- • 自定义仪表盘(dashboards)
- • 20 个工具
从这些东西开始:
- • 一个工作
- • 一个 Agent
- • 一个清晰 Prompt
- • 最多一两个工具
- • 5 到 10 个真实测试案例
成功的方法,就是别一开始就把事情做复杂。
实用结论
现在你已经到第 3 部分末尾了。这一部分在教你如何构建第一个 Agent。读完之后,你应该能说清楚:
- • 我知道这个 Agent 是做什么的
- • 我知道它需要哪些工具
- • 我知道它应该遵守哪些规则
- • 我知道输出应该长什么样
- • 我知道该从 Anthropic 还是 OpenAI 开始
- • 我知道如何用 AI 帮自己设计第一个版本
- 使用工具
大多数人在这里都会搞错。
他们以为:
“More tools = smarter agent”
错。
更好的工具,才会让 Agent 更聪明。
更少的工具,通常会让 Agent 更可靠。
理解工具的最简单方式
工具就是:AI 自己做不了的事。
也就是 AI 自己做不了、需要外部能力帮忙完成的事情。
例子:
- • 计算数字
- • 搜索网页
- • 读取文件
- • 发送邮件
- • 查询数据库
Step 1:先问自己“这真的需要工具吗?”
在添加任何东西之前,先问:
- • 模型能不能只靠推理回答?
- • 还是需要真实世界的数据或动作?
不需要工具的例子:
- • “重写这封邮件”
- • “总结这段文本”
- • “解释这个概念”
需要工具的例子:
- • “现在天气怎么样?”
- • “搜索最新新闻”
- • “计算复利”
- • “从我的电子表格里拉取数据”
规则:如果需要外部数据或动作,就用工具;如果不需要,就别加工具。
Step 2:让 AI 帮你设计工具
I am building an AI agent.My goal:[描述目标]Here is what I think the agent needs to do:[行为列表]Which of these require tools?What tools should I create?Keep them simple and minimal.Return:1. Tool list2. Tool descriptions3. Inputs required for each tool这会帮你节省很多时间。
Step 3:保持简单
糟糕的工具:
manage_files(action, file, destination, overwrite, format, permissions)好的工具:
read_file(path)write_file(path, content)delete_file(path)规则:一个工具 = 一个清楚的工作。
Step 4:告诉 Agent 什么时候使用工具
大多数人失败在这里。
差:“计算器工具”
好:
“当需要进行数学计算时使用该工具。绝不要凭空猜测计算结果。”
Step 5:让 Agent 失败,然后修复它
用真实问题测试:
- • “2 的 16 次方是多少?”
- • “计算 10 年内 7% 的增长(复利)结果是多少?”
如果它:
- • 没有使用工具:修工具描述
- • 使用方式不对:修输入定义
- • 胡编:把规则写得更严格
读完第 4 部分,你应该知道:
- • 你不需要很多工具
- • 可以用 AI 帮你设计工具
- • 工具越简单,Agent 通常越好
- • 工具说明往往比工具本身更重要
继续。
5. 给 Agent 记忆
人们非常容易把记忆搞复杂。
你只需要先理解一点:记忆分为两类。
1. 短期记忆,也就是对话记忆
它其实就是“到目前为止说过什么”。
目前为止说过什么。这个能力通常默认就有。
2. 长期记忆,也就是外部知识
它指的是“Agent 以后可以查询的东西”。
以后 Agent 可以查询的东西。
例子:
- • 你的笔记
- • 文档
- • 数据库
什么时候你真的需要记忆?
问自己:
- • Agent 需要跨消息记住信息吗?如果是,那需要短期记忆。
- • Agent 需要使用外部文档吗?如果是,那需要长期记忆。
- • 否则,你大概率不需要记忆。
Step 1:让 AI 帮你判断是否需要记忆
I am building an AI agent.My goal:[目标]Does this agent need:1. Conversation memory?2. External knowledge (RAG)?If yes, explain why.If no, explain why not.Keep it simple.Step 2:你有三个选项
Option A:不加记忆,从这里开始。
- • 最适合大多数初学者
- • 能覆盖 70% 的使用场景
Option B:对话记忆。
- • 大多数 SDK 已经处理好了
Option C:基于文件的记忆,也就是简单 RAG。
- • 上传文档
- • 使用文件搜索工具(file search tool)
Step 3:不要一上来就做过头
常见大坑是,在你还不知道是否需要之前,就开始加:
- • vector DB
- • embeddings
- • 复杂流水线(pipeline)
规则:如果 Agent 不加记忆也能工作,就别加。
读完第 5 部分,你应该知道:
- • 大多数 Agent 不需要复杂记忆
- • 从简单开始
- • 只有当某个环节坏掉时,再添加记忆
6. 让 Agent 在真实场景中跑起来
这一部分会决定 Agent 最后是好用,还是完全不好用。很多 Agent 失败,原因通常是:
- • Prompt 写得差
- • 没有测试
- • 预期不现实
所以:
Step 1:用 AI 创建测试案例
I built an AI agent with this goal:[目标]Create 15 realistic user inputs:- messy- vague- real-world styleAlso include:- edge cases- confusing inputs- bad inputsStep 2:像真实用户一样测试
不要只测试:“请对这个计费请求进行分类”
要测试:
“我怎么又被扣费了”
Step 3:一次只修一个问题
当它失败时,问:
- • Prompt 是否不清楚?
- • 输出格式是否模糊?
- • 是否缺少工具?
- • 是否缺少规则?
Step 4:用 AI 调试你的 Agent
Here is my agent:Here is what I asked:[输入]Here is the output:[输出]What went wrong?How do I fix it?Be specific.Step 5:不要太早失控
不要添加这些东西:
- • 多个 Agent
- • 复杂工作流
- • 自动化流水线(pipeline)
除非:
- • 你的简单版本已经能稳定工作
读完第 6 部分,你应该知道:
- • 测试就是一切
- • AI 可以帮你调试 AI 本身
- • 先修清晰度,再加复杂度
下一部分。
7. 多 Agent
这里很容易跑偏。
人们会以为:
“More agents = more powerful”
错。
永远从一个 Agent 开始。
只有在下面情况出现时,才增加更多 Agent:
- • 任务真的能清楚拆分
- • 一个 Agent 明显吃力
- • 角色之间非常不同
只有三种情况需要多个 Agent
第一,技能不同。
例子:
- • Research agent
- • Writing agent
第二,有清晰流水线(pipeline)。
例子:
- • Input → Analyse → Write → Output
第三,权限不同。
例子:
- • 一个 Agent 可以读数据
- • 一个 Agent 可以执行动作
Step 1:用 AI 判断是否需要多个 Agent
I built an AI agent.Here is its job:[描述下agent的工作]Should this be:1. A single agent2. Multiple agentsIf multiple:- what roles?- why?Keep it simple.最安全的模式
监督者模式(Supervisor model):
User → Main agent → 如果需要,再调用其他 Agent
不要一开始就做:
- • swarm
- • 完全自主的多 Agent 系统(fully autonomous multi-agent systems)
它们非常容易坏。
Step 2:保持角色简单
差:
- • “具有动态认知分层的 AI 战略型 Agent”
好:
- • “调研型 Agent”
- • “写作型 Agent”
Step 3:慢慢增加 Agent
开始:
- • 1 个 Agent
然后:
- • 最多 2 个 Agent
只有在你真的看到收益时,再继续扩展。
第 7 部分的结论是:
- • 大多数人不需要多个 Agent
- • 单 Agent + 好工具通常已经足够
- • 只有被真实问题逼到时,才增加复杂度
8. 收尾总结
这篇指南最重要的洞察是:Agent 在概念上很简单,但在运行上要求很高。
核心循环,也就是 LLM 思考、调用工具、重复执行,用 50 行 Python 就能写出来。
真正困难的部分在工具设计、错误处理、评估,以及判断什么时候使用更简单的模式,比如 Prompt Chaining(提示链)或 Routing(路由),会比自主 Agent 表现更好。
三个可执行的入门建议:
- 先从零构建一个 Agent。理解原始循环之后,每个框架都会变得透明。你会更快定位问题,也会更明智地选择工具。
- 从能工作的最简单模式开始。Prompt Chaining(提示链)能处理大多数多步骤任务。Routing(路由)能处理大多数“先分类,再行动”的工作流。只有当你真的需要 LLM 动态决定执行路径时,再升级到自主 Agent。
- 尽早投入工具设计和评估。清晰命名、描述精确、错误信息结构化的工具,比单纯更换模型或框架更能提升 Agent 表现。20 个高质量测试用例,比大量手工测试更能发现问题。
这个领域变化很快。MCP 不到一年就成了通用标准,两家主要提供商都推出了 Agent SDK,新框架也几乎每个月都在出现。
但这篇指南里的基本原则是稳定的:Agent 循环(agentic loop)、五种工作流模式、好工具设计原则,以及从简单开始的要求。掌握这些,你就能适应接下来出现的任何新变化。
最后
对于正在迷茫择业、想转行提升,或是刚入门的程序员、编程小白来说,有一个问题几乎人人都在问:未来10年,什么领域的职业发展潜力最大?
答案只有一个:人工智能(尤其是大模型方向)
当下,人工智能行业正处于爆发式增长期,其中大模型相关岗位更是供不应求,薪资待遇直接拉满——字节跳动作为AI领域的头部玩家,给硕士毕业的优质AI人才(含大模型相关方向)开出的月基础工资高达5万—6万元;即便是非“人才计划”的普通应聘者,月基础工资也能稳定在4万元左右。
再看阿里、腾讯两大互联网大厂,非“人才计划”的AI相关岗位应聘者,月基础工资也约有3万元,远超其他行业同资历岗位的薪资水平,对于程序员、小白来说,无疑是绝佳的转型和提升赛道。
对于想入局大模型、抢占未来10年行业红利的程序员和小白来说,现在正是最好的学习时机:行业缺口大、大厂需求旺、薪资天花板高,只要找准学习方向,稳步提升技能,就能轻松摆脱“低薪困境”,抓住AI时代的职业机遇。
如果你还不知道从何开始,我自己整理一套全网最全最细的大模型零基础教程,我也是一路自学走过来的,很清楚小白前期学习的痛楚,你要是没有方向还没有好的资源,根本学不到东西!
下面是我整理的大模型学习资源,希望能帮到你。
👇👇扫码免费领取全部内容👇👇
1、大模型学习路线
2、从0到进阶大模型学习视频教程
从入门到进阶这里都有,跟着老师学习事半功倍。
3、 入门必看大模型学习书籍&文档.pdf(书面上的技术书籍确实太多了,这些是我精选出来的,还有很多不在图里)
4、AI大模型最新行业报告
2026最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
5、面试试题/经验
【大厂 AI 岗位面经分享(107 道)】
【AI 大模型面试真题(102 道)】
【LLMs 面试真题(97 道)】
6、大模型项目实战&配套源码
适用人群
四阶段学习规划(共90天,可落地执行)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身:基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例:如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…
👇👇扫码免费领取全部内容👇👇
3、这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】