大模型时代搜索广告算法专家:理论与数学重构进阶计划
前置约束与学习定调:
- 核心目标:从传统 NLP 分类思维彻底向大模型生成式思维(Generative)与搜索广告业务思维(Ranking/Retrieval)转型。
- 学习风格:抛弃浅尝辄止,拒绝实践调参。直击底层数学公式(推导)、模型架构差异与目标函数(Loss)设计。
- 时间规划:无强制时间表,按“阶段目标”稳步推进。
阶段一:Transformer 及核心演进理论重构
🎯 焦点与目标:找回 Transformer 的底层直觉,并掌握大模型时代对原生 Transformer 的几项关键数学改造。理解为什么现在的模型长这样,以及它们为了解决什么计算瓶颈。
学习顺序与核心文献:
1. 原生 Transformer 的数学拆解
- 核心关注:Self-Attention 的Q K T / d k QK^T/\sqrt{d_k}QKT/dk缩放意义、FFN 层的升降维逻辑、Residual 与 LayerNorm 对梯度的影响。
- 📖精读文献:Attention Is All You Need (NeurIPS 2017)
- 💡优质讲解:
- The Illustrated Transformer (Jay Alammar) / 知乎翻译版:图解 Transformer
- Transformer 的数学原理与公式推导(知乎)
2. 位置编码的革命:RoPE (Rotary Position Embedding)
- 核心关注:从绝对位置编码到相对位置的转换。理解欧拉公式e i θ e^{i\theta}eiθ在注意力机制中的旋转矩阵推导,以及它如何保持平移不变性。
- 📖精读文献:RoFormer: Enhanced Transformer with Rotary Position Embedding (2021)
- 💡优质讲解:
- 十分钟读懂旋转位置编码(RoPE)(苏剑林 科学空间)
- RoPE 旋转位置编码推导与图解(知乎)
3. 显存优化与推理加速:KV Cache 与 Attention 变体
- 核心关注:MHA (Multi-Head) -> MQA (Multi-Query) -> GQA (Grouped-Query)。理解 KV Cache 的显存占用计算公式(2 × b × s × h × d 2 \times b \times s \times h \times d2×b×s×h×d)。
- 📖精读文献:GQA: Training Generalized Multi-Query Attention Models from Checkpoints (2023)
- 💡优质讲解:
- 大模型推理加速:看懂 KV Cache 与 MQA/GQA(知乎)
- LLM 推理核心技术原理:KV Cache 深入理解
4. 激活函数与归一化的进化
- 核心关注:为什么用 SwiGLU 替代 ReLU (S w i s h ( x W ) ⊗ x V Swish(xW) \otimes xVSwish(xW)⊗xV),为什么用 RMSNorm 替代 LayerNorm(去掉均值计算的数学考量)。
- 📖精读文献:GLU Variants Improve Transformer (2020)
- 💡优质讲解:
- RMSNorm 与 LayerNorm 的对比及推导(知乎)
- 大模型基础:SwiGLU 激活函数详解
阶段二:通用大模型生态与架构演进 (General LLM Ecosystem)
🎯 焦点与目标:深入四大主流模型(Llama, Qwen, DeepSeek, GLM)的底层差异。理解不同模型在架构、注意力机制优化、以及混合专家(MoE)技术上的不同数学选择。
学习顺序与核心文献:
1. 架构标杆的演进轨迹:Llama 体系 (仅查阅关键历史拐点)
- 核心关注:Llama 1 的开创性架构(RoPE + SwiGLU + RMSNorm);Llama 2 的 GQA 引入;Llama 3 的大规模数据配比与 Tiktoken 词表优化。
- 📖精读文献:
- LLaMA: Open and Efficient Foundation Language Models (Llama 1, 2023)
- The Llama 3 Herd of Models (Llama 3, 2024)
- 💡优质讲解:
- 深入浅出 LLaMA 架构与论文精读(知乎)
- Llama 3 论文超硬核拆解:它到底强在哪里?(知乎)
2. 阿里开源双壁:Qwen 技术架构
- 核心关注:Qwen 的双词表设计(多语言+代码),长文本 RoPE 外推机制(YARN / Dynamic NTK-aware),以及其 Dense 架构下的缩放定律(Scaling Law)。
- 📖精读文献:Qwen Technical Report (2023 最新版报告)
- 💡优质讲解:
- Qwen 架构与技术原理解析(知乎专栏)
3. 极致性价比与创新:DeepSeek (MoE 与 MLA)
- 核心关注:DeepSeekMoE 的架构原理(共享专家 Shared Expert + 细粒度路由),Router 的 Load Balancing Loss 设计。DeepSeek-V2/V3 中的 MLA (Multi-head Latent Attention) 如何通过低秩投影(Low-Rank Projection)极大地压缩 KV Cache。
- 📖精读文献:
- DeepSeekMoE: Towards Ultimate Expert Specialization in MoE (2024)
- DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model (2024 - 关注 MLA 部分)
- 💡优质讲解:
- 万字长文解析 DeepSeek MoE 与 Load Balancing (知乎)
- 硬核推导:DeepSeek-V2 MLA 到底是怎么压缩 KV Cache 的?(知乎)
4. 自回归与双向的折中:GLM 架构 (ChatGLM/GLM-4)
- 核心关注:Autoregressive Blank Infilling 目标,2D 位置编码机制。了解这种架构在长文本和特定任务上的理论优势。
- 📖精读文献:GLM-4 Technical Report (2024)
阶段三:对齐 (Alignment) 与推理强化 (Reasoning)
🎯 焦点与目标:掌握模型如何从“续写机器”变成“听指令的助手”甚至“推理专家”。吃透 RLHF、DPO 的损失函数推导,以及 DeepSeek-R1 带来的纯强化学习(GRPO)数学范式。
学习顺序与核心文献:
1. 奖励模型与传统强化学习:RLHF 体系
- 核心关注:Bradley-Terry 模型(奖励函数的数学定义P ( y w > y l ) = σ ( r ( y w ) − r ( y l ) ) P(y_w > y_l) = \sigma(r(y_w) - r(y_l))P(yw>yl)=σ(r(yw)−r(yl))),PPO(Proximal Policy Optimization)的 Actor-Critic 架构与 KL 散度约束项。
- 📖精读文献:InstructGPT / Training language models to follow instructions with human feedback (2022)
- 💡优质讲解:
- 强化学习 RLHF:InstructGPT 论文硬核解析(知乎)
- ChatGPT 技术原理解析:PPO 算法与 KL 惩罚项推导
2. 损失函数的数学优雅:DPO (Direct Preference Optimization)
- 核心关注:DPO 如何通过数学推导(解方程),将复杂的 PPO 目标直接转化为针对 LLM 的二分类交叉熵 Loss。掌握 DPO Loss 公式推导过程,这是目前最常用的对齐方法。
- 📖精读文献:Direct Preference Optimization: Your Language Model is Secretly a Reward Model (2023)
- 💡优质讲解:
- DPO (Direct Preference Optimization) 数学推导与直觉解析(知乎)
- RLHF 终结者?深入理解 DPO 损失函数(科学空间)
3. System 2 思考与纯 RL 范式突破:DeepSeek-R1 与 GRPO
- 核心关注:无需 SFT,完全依靠规则驱动的强化学习。掌握 GRPO (Group Relative Policy Optimization) 的公式计算:如何通过同一 Prompt 采样多个输出,计算相对 Advantage (归一化),从而省去 Critic 模型的显存开销。
- 📖精读文献:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (2025)
- 💡优质讲解:
- DeepSeek-R1 论文精读:GRPO 算法核心公式推导(知乎) (注:需关注最新的 DeepSeek R1 算法解析文章)
- 告别 Critic 模型:GRPO (Group Relative Policy Optimization) 原理解读 (基于 DeepSeekMath)
阶段四:搜索广告核心漏斗与生成式大模型前沿
🎯 焦点与目标:深入理解搜索广告(搜推广)的漏斗体系(召回->粗排->精排->机制)。从传统的点击率预估(CTR)架构,过渡到大模型时代 Generative Retrieval(生成式召回)的前沿数学范式。
学习顺序与核心文献:
1. 经典广告系统的基石与漏斗
- 核心关注:双塔模型(Dual-Tower)中的内积计算与 ANN (近似最近邻) 的数学边界。特征交叉的演进(DCN 的x l + 1 = x 0 x l T w l + b l + x l x_{l+1} = x_0 x_l^T w_l + b_l + x_lxl+1=x0xlTwl+bl+xl)。
- 📖精读文献:
- Deep Neural Networks for YouTube Recommendations (2016 双塔启发)
- Deep & Cross Network for Ad Click Predictions (DCN, 2017)
- 💡优质讲解:
- YouTube DNN 经典论文与双塔模型原理解析(知乎)
- 特征交叉系列:DCN (Deep & Cross Network) 原理推导
2. 用户行为序列与注意力机制
- 核心关注:DIN 提出时的背景。Target Attention 如何通过目标广告 (Target Ad) 对用户的历史点击序列计算 Attention,实现千人千面的表示表示?
- 📖精读文献:Deep Interest Network for Click-Through Rate Prediction (DIN, 2018)
- 💡优质讲解:
- 阿里妈妈 CTR 预估经典:DIN 论文精读与 Attention 机制(知乎)
3. 【前沿核心】大模型在召回层的革命:Generative Retrieval
- 核心关注:彻底颠覆“双塔+ANN”的检索范式。Item ID 如何被 Token化(Semantic ID)?RQ-VAE 在其中的离散表征作用。自回归模型如何直接计算P ( I t e m ∣ U s e r , C o n t e x t ) P(Item | User, Context)P(Item∣User,Context)?TIGER 与 GR4AD 的 LazyAR 机制推导。
- 📖精读文献:
- TIGER: Transformer Index for GEnerative Recommenders (2023, 奠基之作)
- Generative Retrieval for Ad Generation and Recommendation (GR4AD, 腾讯等 2024)
- 💡优质讲解:
- 推荐系统新范式:生成式召回 (Generative Retrieval) 原理剖析(知乎)
- 深入浅出 RQ-VAE 与 Semantic ID 在生成式推荐中的应用
4. LLM for CTR 预估(精排/重排)
- 核心关注:LLM 在精排中的局限性(时延问题)。大模型如何处理纯表格类特征(Tabular Data)。位置偏差(Position Bias)在 LLM Prompt 中的表现与消除。大模型到小模型(Teacher -> Student)的 Knowledge Distillation(知识蒸馏)在工业界的应用数学考量。
- 📖延伸查阅 (可选):搜索 “LLM for CTR prediction survey” 获取最新的综述,了解工业界目前的通用架构模式。