搜索广告算法工程师大模型学习--1.计划
2026/5/16 3:49:04 网站建设 项目流程

大模型时代搜索广告算法专家:理论与数学重构进阶计划

前置约束与学习定调:

  • 核心目标:从传统 NLP 分类思维彻底向大模型生成式思维(Generative)与搜索广告业务思维(Ranking/Retrieval)转型。
  • 学习风格:抛弃浅尝辄止,拒绝实践调参。直击底层数学公式(推导)、模型架构差异与目标函数(Loss)设计。
  • 时间规划:无强制时间表,按“阶段目标”稳步推进。

阶段一:Transformer 及核心演进理论重构

🎯 焦点与目标:找回 Transformer 的底层直觉,并掌握大模型时代对原生 Transformer 的几项关键数学改造。理解为什么现在的模型长这样,以及它们为了解决什么计算瓶颈。

学习顺序与核心文献:

1. 原生 Transformer 的数学拆解

  • 核心关注:Self-Attention 的Q K T / d k QK^T/\sqrt{d_k}QKT/dk缩放意义、FFN 层的升降维逻辑、Residual 与 LayerNorm 对梯度的影响。
  • 📖精读文献:Attention Is All You Need (NeurIPS 2017)
  • 💡优质讲解
    • The Illustrated Transformer (Jay Alammar) / 知乎翻译版:图解 Transformer
    • Transformer 的数学原理与公式推导(知乎)

2. 位置编码的革命:RoPE (Rotary Position Embedding)

  • 核心关注:从绝对位置编码到相对位置的转换。理解欧拉公式e i θ e^{i\theta}eiθ在注意力机制中的旋转矩阵推导,以及它如何保持平移不变性。
  • 📖精读文献:RoFormer: Enhanced Transformer with Rotary Position Embedding (2021)
  • 💡优质讲解
    • 十分钟读懂旋转位置编码(RoPE)(苏剑林 科学空间)
    • RoPE 旋转位置编码推导与图解(知乎)

3. 显存优化与推理加速:KV Cache 与 Attention 变体

  • 核心关注:MHA (Multi-Head) -> MQA (Multi-Query) -> GQA (Grouped-Query)。理解 KV Cache 的显存占用计算公式(2 × b × s × h × d 2 \times b \times s \times h \times d2×b×s×h×d)。
  • 📖精读文献:GQA: Training Generalized Multi-Query Attention Models from Checkpoints (2023)
  • 💡优质讲解
    • 大模型推理加速:看懂 KV Cache 与 MQA/GQA(知乎)
    • LLM 推理核心技术原理:KV Cache 深入理解

4. 激活函数与归一化的进化

  • 核心关注:为什么用 SwiGLU 替代 ReLU (S w i s h ( x W ) ⊗ x V Swish(xW) \otimes xVSwish(xW)xV),为什么用 RMSNorm 替代 LayerNorm(去掉均值计算的数学考量)。
  • 📖精读文献:GLU Variants Improve Transformer (2020)
  • 💡优质讲解
    • RMSNorm 与 LayerNorm 的对比及推导(知乎)
    • 大模型基础:SwiGLU 激活函数详解

阶段二:通用大模型生态与架构演进 (General LLM Ecosystem)

🎯 焦点与目标:深入四大主流模型(Llama, Qwen, DeepSeek, GLM)的底层差异。理解不同模型在架构、注意力机制优化、以及混合专家(MoE)技术上的不同数学选择。

学习顺序与核心文献:

1. 架构标杆的演进轨迹:Llama 体系 (仅查阅关键历史拐点)

  • 核心关注:Llama 1 的开创性架构(RoPE + SwiGLU + RMSNorm);Llama 2 的 GQA 引入;Llama 3 的大规模数据配比与 Tiktoken 词表优化。
  • 📖精读文献
    • LLaMA: Open and Efficient Foundation Language Models (Llama 1, 2023)
    • The Llama 3 Herd of Models (Llama 3, 2024)
  • 💡优质讲解
    • 深入浅出 LLaMA 架构与论文精读(知乎)
    • Llama 3 论文超硬核拆解:它到底强在哪里?(知乎)

2. 阿里开源双壁:Qwen 技术架构

  • 核心关注:Qwen 的双词表设计(多语言+代码),长文本 RoPE 外推机制(YARN / Dynamic NTK-aware),以及其 Dense 架构下的缩放定律(Scaling Law)。
  • 📖精读文献:Qwen Technical Report (2023 最新版报告)
  • 💡优质讲解
    • Qwen 架构与技术原理解析(知乎专栏)

3. 极致性价比与创新:DeepSeek (MoE 与 MLA)

  • 核心关注:DeepSeekMoE 的架构原理(共享专家 Shared Expert + 细粒度路由),Router 的 Load Balancing Loss 设计。DeepSeek-V2/V3 中的 MLA (Multi-head Latent Attention) 如何通过低秩投影(Low-Rank Projection)极大地压缩 KV Cache。
  • 📖精读文献
    • DeepSeekMoE: Towards Ultimate Expert Specialization in MoE (2024)
    • DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model (2024 - 关注 MLA 部分)
  • 💡优质讲解
    • 万字长文解析 DeepSeek MoE 与 Load Balancing (知乎)
    • 硬核推导:DeepSeek-V2 MLA 到底是怎么压缩 KV Cache 的?(知乎)

4. 自回归与双向的折中:GLM 架构 (ChatGLM/GLM-4)

  • 核心关注:Autoregressive Blank Infilling 目标,2D 位置编码机制。了解这种架构在长文本和特定任务上的理论优势。
  • 📖精读文献:GLM-4 Technical Report (2024)

阶段三:对齐 (Alignment) 与推理强化 (Reasoning)

🎯 焦点与目标:掌握模型如何从“续写机器”变成“听指令的助手”甚至“推理专家”。吃透 RLHF、DPO 的损失函数推导,以及 DeepSeek-R1 带来的纯强化学习(GRPO)数学范式。

学习顺序与核心文献:

1. 奖励模型与传统强化学习:RLHF 体系

  • 核心关注:Bradley-Terry 模型(奖励函数的数学定义P ( y w > y l ) = σ ( r ( y w ) − r ( y l ) ) P(y_w > y_l) = \sigma(r(y_w) - r(y_l))P(yw>yl)=σ(r(yw)r(yl))),PPO(Proximal Policy Optimization)的 Actor-Critic 架构与 KL 散度约束项。
  • 📖精读文献:InstructGPT / Training language models to follow instructions with human feedback (2022)
  • 💡优质讲解
    • 强化学习 RLHF:InstructGPT 论文硬核解析(知乎)
    • ChatGPT 技术原理解析:PPO 算法与 KL 惩罚项推导

2. 损失函数的数学优雅:DPO (Direct Preference Optimization)

  • 核心关注:DPO 如何通过数学推导(解方程),将复杂的 PPO 目标直接转化为针对 LLM 的二分类交叉熵 Loss。掌握 DPO Loss 公式推导过程,这是目前最常用的对齐方法。
  • 📖精读文献:Direct Preference Optimization: Your Language Model is Secretly a Reward Model (2023)
  • 💡优质讲解
    • DPO (Direct Preference Optimization) 数学推导与直觉解析(知乎)
    • RLHF 终结者?深入理解 DPO 损失函数(科学空间)

3. System 2 思考与纯 RL 范式突破:DeepSeek-R1 与 GRPO

  • 核心关注:无需 SFT,完全依靠规则驱动的强化学习。掌握 GRPO (Group Relative Policy Optimization) 的公式计算:如何通过同一 Prompt 采样多个输出,计算相对 Advantage (归一化),从而省去 Critic 模型的显存开销。
  • 📖精读文献:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (2025)
  • 💡优质讲解
    • DeepSeek-R1 论文精读:GRPO 算法核心公式推导(知乎) (注:需关注最新的 DeepSeek R1 算法解析文章)
    • 告别 Critic 模型:GRPO (Group Relative Policy Optimization) 原理解读 (基于 DeepSeekMath)

阶段四:搜索广告核心漏斗与生成式大模型前沿

🎯 焦点与目标:深入理解搜索广告(搜推广)的漏斗体系(召回->粗排->精排->机制)。从传统的点击率预估(CTR)架构,过渡到大模型时代 Generative Retrieval(生成式召回)的前沿数学范式。

学习顺序与核心文献:

1. 经典广告系统的基石与漏斗

  • 核心关注:双塔模型(Dual-Tower)中的内积计算与 ANN (近似最近邻) 的数学边界。特征交叉的演进(DCN 的x l + 1 = x 0 x l T w l + b l + x l x_{l+1} = x_0 x_l^T w_l + b_l + x_lxl+1=x0xlTwl+bl+xl)。
  • 📖精读文献
    • Deep Neural Networks for YouTube Recommendations (2016 双塔启发)
    • Deep & Cross Network for Ad Click Predictions (DCN, 2017)
  • 💡优质讲解
    • YouTube DNN 经典论文与双塔模型原理解析(知乎)
    • 特征交叉系列:DCN (Deep & Cross Network) 原理推导

2. 用户行为序列与注意力机制

  • 核心关注:DIN 提出时的背景。Target Attention 如何通过目标广告 (Target Ad) 对用户的历史点击序列计算 Attention,实现千人千面的表示表示?
  • 📖精读文献:Deep Interest Network for Click-Through Rate Prediction (DIN, 2018)
  • 💡优质讲解
    • 阿里妈妈 CTR 预估经典:DIN 论文精读与 Attention 机制(知乎)

3. 【前沿核心】大模型在召回层的革命:Generative Retrieval

  • 核心关注:彻底颠覆“双塔+ANN”的检索范式。Item ID 如何被 Token化(Semantic ID)?RQ-VAE 在其中的离散表征作用。自回归模型如何直接计算P ( I t e m ∣ U s e r , C o n t e x t ) P(Item | User, Context)P(ItemUser,Context)?TIGER 与 GR4AD 的 LazyAR 机制推导。
  • 📖精读文献
    • TIGER: Transformer Index for GEnerative Recommenders (2023, 奠基之作)
    • Generative Retrieval for Ad Generation and Recommendation (GR4AD, 腾讯等 2024)
  • 💡优质讲解
    • 推荐系统新范式:生成式召回 (Generative Retrieval) 原理剖析(知乎)
    • 深入浅出 RQ-VAE 与 Semantic ID 在生成式推荐中的应用

4. LLM for CTR 预估(精排/重排)

  • 核心关注:LLM 在精排中的局限性(时延问题)。大模型如何处理纯表格类特征(Tabular Data)。位置偏差(Position Bias)在 LLM Prompt 中的表现与消除。大模型到小模型(Teacher -> Student)的 Knowledge Distillation(知识蒸馏)在工业界的应用数学考量。
  • 📖延伸查阅 (可选):搜索 “LLM for CTR prediction survey” 获取最新的综述,了解工业界目前的通用架构模式。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询