概率论、线性代数和深度学习三者构成了现代人工智能的“铁三角”。它们并非孤立学科,而是在深层逻辑上相互依赖、彼此渗透。
一、线性代数:深度学习的“语法”
如果把深度学习看作一门语言,线性代数就是它的基本语法规则。
1. 数据是张量
灰度图像是2阶张量(矩阵),彩色图像是3阶张量,视频是4阶。
线性代数提供了维度、转置、切片、广播等操作。
2. 神经网络层就是线性变换
全连接层的本质:
y=Wx+by=Wx+b
这就是仿射变换。多层堆叠就是多次矩阵乘法的复合。
3. 卷积是特殊的线性算子
卷积运算可以写成Toeplitz矩阵乘法。CNN用局部连接和权值共享,但底层仍是线性变换。
4. 注意力机制是矩阵乘法
Self-Attention的核心:
计算过程就是矩阵乘法 → 缩放 → 归一化 → 再乘。
5. 降维与分解
PCA(主成分分析)依赖SVD(奇异值分解)
权重矩阵的低秩分解可以压缩模型
6. 反向传播是雅可比矩阵的链式相乘
梯度传播本质上是雅可比矩阵的转置相乘。线性代数的求导规则(如矩阵求导)贯穿整个反向传播过程。
二、概率论:深度学习的“语义”
如果说线性代数给了深度学习骨架,那么概率论就赋予它处理不确定性的能力。
1. 建模不确定性
世界充满噪声,概率论让模型能从不确定中学习规律——不是记住“猫长什么样”,而是学到“什么样的像素排列大概率是猫”。
2. 损失函数的概率来源
均方误差(MSE)等同于假设误差服从高斯分布下的极大似然估计
交叉熵损失等同于假设标签服从类别分布下的极大似然估计
选择损失函数,本质上是在选择数据分布的假设
3. Softmax输出概率分布
神经网络的原始输出(logits)经过Softmax变成概率向量,用于:
多分类决策
衡量预测置信度
计算交叉熵损失
4. 正则化的概率解释
L2正则化等价于权重服从高斯先验的贝叶斯推断
Dropout可看作对子网络进行贝叶斯模型平均
这些方法都是通过施加概率先验来防止过拟合
5. 训练过程的概率视角
随机梯度下降从训练分布中采样mini-batch
数据增强是对输入空间进行概率扰动
整个过程是在做经验风险最小化
6. 生成模型:概率顶峰
VAE(变分自编码器):用变分推断学习隐变量分布
Diffusion(扩散模型):先用正向马尔可夫链逐步加噪,再学习逆向去噪过程
GAN(生成对抗网络):博弈论框架下隐式学习数据分布
三、三者的融合:从表示到推理
线性代数负责“表示”,概率论负责“推理”,深度学习把它们融合成强大的学习系统。
概率线性代数
随机矩阵理论解释神经网络权值谱分布
高维概率(浓度不等式、随机投影)支撑大量现代方法
协方差矩阵、精度矩阵在概率建模中至关重要
融合实例
贝叶斯神经网络:权重不是单个数,而是概率分布;正向传播变成概率分布的线性变换
归一化流:用一系列可逆线性变换和激活函数,把一个简单分布“流”成复杂分布
注意力机制中的概率解释:QKTQKT 做内积度量相似度,Softmax转成注意力权重,本质是用线性代数做核密度估计
对比学习:正样本对拉近、负样本对推远,在高维单位球面上形成概率分布
总结框图(Mermaid)
三者的关系可以这样类比:线性代数是骨骼架构,概率论是血肉灵魂,而深度学习则是让这副躯体学会运动的大脑。要深入理解深度学习,缺一不可。