一、线性代数:神经网络的骨架
神经网络的本质是一系列线性变换与非线性激活的复合。线性代数为此提供了基本的运算语言。
向量与矩阵运算构成了神经网络前向传播的核心。输入数据被表示为向量或张量,通过权重矩阵进行线性变换:\mathbf{y} = \mathbf{W}\mathbf{x} + \mathbf{b}。其中,权重矩阵 \mathbf{W} 的维度设计直接决定了网络的表达能力与计算复杂度。
特征分解与奇异值分解(SVD)在深度学习中有广泛应用。主成分分析(PCA)通过特征分解实现数据降维;而奇异值分解则为矩阵低秩近似、推荐系统以及模型压缩提供了理论基础。深度网络中的批量归一化操作,其本质也是对数据协方差矩阵的对角化处理。
张量运算是处理高维数据的基础。现代深度学习框架将张量作为核心数据结构,支持高效的并行计算与自动微分。理解张量的维度变换、广播机制以及缩并运算,是进行复杂网络架构设计的必要前提。
二、微积分:优化的驱动力
神经网络的训练过程本质上是一个优化问题,微积分为此提供了寻找最优解的数学工具。
梯度与偏导数是反向传播算法的理论基础。链式法则使得复合函数的梯度计算成为可能,从而支持深层网络中数百万参数的高效更新。损失函数 L(\theta) 关于参数 \theta 的梯度 \nabla_\theta L 指明了参数更新的方向。
梯度下降及其变体构成了优化算法的核心族。从标准梯度下降到随机梯度下降(SGD),从带动量的优化器到自适应学习率方法(Adam、RMSprop),这些算法都在微积分框架下寻求更快的收敛速度与更好的局部最优解。
海森矩阵与二阶优化虽然计算成本较高,但在理论上提供了更精确的优化信息。海森矩阵描述了损失函数的局部曲率,牛顿法利用其逆矩阵实现更高效的参数更新。近年来,随着计算硬件的发展,二阶优化方法在特定场景下重新受到关注。








