人工智能篇---概率论、线性代数和深度学习
2026/5/4 17:53:42 网站建设 项目流程

概率论、线性代数和深度学习三者构成了现代人工智能的“铁三角”。它们并非孤立学科,而是在深层逻辑上相互依赖、彼此渗透。


一、线性代数:深度学习的“语法”

如果把深度学习看作一门语言,线性代数就是它的基本语法规则

1. 数据是张量
  • 灰度图像是2阶张量(矩阵),彩色图像是3阶张量,视频是4阶。

  • 线性代数提供了维度、转置、切片、广播等操作。

2. 神经网络层就是线性变换

全连接层的本质:
y=Wx+by=Wx+b
这就是仿射变换。多层堆叠就是多次矩阵乘法的复合。

3. 卷积是特殊的线性算子

卷积运算可以写成Toeplitz矩阵乘法。CNN用局部连接和权值共享,但底层仍是线性变换。

4. 注意力机制是矩阵乘法

Self-Attention的核心:

计算过程就是矩阵乘法 → 缩放 → 归一化 → 再乘

5. 降维与分解
  • PCA(主成分分析)依赖SVD(奇异值分解)

  • 权重矩阵的低秩分解可以压缩模型

6. 反向传播是雅可比矩阵的链式相乘

梯度传播本质上是雅可比矩阵的转置相乘。线性代数的求导规则(如矩阵求导)贯穿整个反向传播过程。


二、概率论:深度学习的“语义”

如果说线性代数给了深度学习骨架,那么概率论就赋予它处理不确定性的能力

1. 建模不确定性

世界充满噪声,概率论让模型能从不确定中学习规律——不是记住“猫长什么样”,而是学到“什么样的像素排列大概率是猫”。

2. 损失函数的概率来源
  • 均方误差(MSE)等同于假设误差服从高斯分布下的极大似然估计

  • 交叉熵损失等同于假设标签服从类别分布下的极大似然估计

  • 选择损失函数,本质上是在选择数据分布的假设

3. Softmax输出概率分布

神经网络的原始输出(logits)经过Softmax变成概率向量,用于:

  • 多分类决策

  • 衡量预测置信度

  • 计算交叉熵损失

4. 正则化的概率解释
  • L2正则化等价于权重服从高斯先验的贝叶斯推断

  • Dropout可看作对子网络进行贝叶斯模型平均

  • 这些方法都是通过施加概率先验来防止过拟合

5. 训练过程的概率视角
  • 随机梯度下降从训练分布中采样mini-batch

  • 数据增强是对输入空间进行概率扰动

  • 整个过程是在做经验风险最小化

6. 生成模型:概率顶峰
  • VAE(变分自编码器):用变分推断学习隐变量分布

  • Diffusion(扩散模型):先用正向马尔可夫链逐步加噪,再学习逆向去噪过程

  • GAN(生成对抗网络):博弈论框架下隐式学习数据分布


三、三者的融合:从表示到推理

线性代数负责“表示”,概率论负责“推理”,深度学习把它们融合成强大的学习系统。

概率线性代数
  • 随机矩阵理论解释神经网络权值谱分布

  • 高维概率(浓度不等式、随机投影)支撑大量现代方法

  • 协方差矩阵、精度矩阵在概率建模中至关重要

融合实例
  1. 贝叶斯神经网络:权重不是单个数,而是概率分布;正向传播变成概率分布的线性变换

  2. 归一化流:用一系列可逆线性变换和激活函数,把一个简单分布“流”成复杂分布

  3. 注意力机制中的概率解释:QKTQKT 做内积度量相似度,Softmax转成注意力权重,本质是用线性代数做核密度估计

  4. 对比学习:正样本对拉近、负样本对推远,在高维单位球面上形成概率分布


总结框图(Mermaid)


三者的关系可以这样类比:线性代数是骨骼架构,概率论是血肉灵魂,而深度学习则是让这副躯体学会运动的大脑。要深入理解深度学习,缺一不可。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询