首页 > 都市重生 > 职场小聪明 > 第961章 AI里的白盒黑盒和正则化

第961章 AI里的白盒黑盒和正则化（1/2）

白盒模型和黑盒模型，就是人工智能的两种算法，白盒顾名思义，可以用人的理解，就是决策树，叶子大于5放左边，叶子小于五放右边，然后继续往下一层，就是无限的分类，可以理解，而黑盒模型就不一样了，是机器学习，多层神经网络，每个层的一定数量神经元全连接，数据反复自己的调参，加权重，也就是什么数据重要，什么不重要，但都要，只是分量不一样，然后还会根据结果是否准确率高再删除一些数据，再进行反向调参，正向叫线性编程，反向就是回归，反正就是倒腾几百万次，数据变来变去，人无法理解，最后出来一个模型，就可以跟现有数据高度吻合

这是一个白盒模型，决策树，可以一层层的分类，容易理解。

正则化（Regurization）：原理、方法与应用

在机器学习和深度学习中，过拟合（Overfittg）是模型训练的核心挑战之一——模型在训练数据上表现极佳，但在未见过的测试数据上泛化能力差。正则化正是解决这一问题的关键技术，其核心思想是通过在损失函数中引入“惩罚项”，限制模型参数的复杂度，迫使模型学习更简单、更具泛化性的特征，而非死记硬背训练数据中的噪声。

一、正则化的核心目标与本质

1.核心目标

平衡“模型拟合能力”与“泛化能力”：避免模型因过度追求训练误差最小化，而忽略对新数据的适应性。

控制模型复杂度：复杂度过高的模型（如高次多项式、深层神经网络）易学习训练数据中的噪声，正则化通过约束参数规模降低复杂度。

2.本质理解

正则化的本质是**“奥卡姆剃刀原理”在机器学习中的体现**——在多个能拟合数据的模型中，选择“最简单”（参数更简洁、特征更通用）的模型，其泛化能力通常更强。例如：用多项式拟合数据时，一次函数（y=ax+b）比五次函数（y=ax?+bx?+...+e）更简单，若两者在训练数据上误差接近，一次函数对新数据的预测更稳定。

二、经典正则化方法（针对传统机器学习）

传统机器学习（如线性回归、逻辑回归、支持向量机）中，正则化主要通过对模型参数的“范数惩罚”实现，常见有L1、L2正则化，以及两者结合的Estiet。

1.L2正则化（岭回归，RidgeRegression）

原理

L2正则化通过在损失函数中加入参数的平方和惩罚项，限制参数的“整体规模”（避免参数值过大）。以线性回归为例：

原始损失函数（均方误差MSE加入L2正则后的损失函数：其中：（正则化强度）：控制惩罚力度，时退化为原始模型，越大惩罚越强（参数越接近0）：模型的权重参数（不含偏置项，因偏置项仅影响整体偏移，不直接导致过拟合）：为了求导后抵消系数，简化计算（非必需，仅影响的数值尺度）。

核心特点

参数“收缩”（Shrkage）

：L2惩罚会让所有参数向0靠近，但不会将参数直接置为0（参数值整体变小，但保留所有特征）。

抗噪声能力强

：参数值减小后，模型对输入数据的微小波动（噪声）更不敏感，泛化性提升。

适用场景

：特征之间存在相关性、不希望删除任何特征的场景（如医学特征，每个指标都可能有意义）。

2.L1正则化（套索回归，Lassression）

原理

L1正则化通过在损失函数中加入参数的绝对值和惩罚项，实现“参数稀疏化”（即强制部分参数变为0，相当于删除冗余特征）。以线性回归为例，加入L1正则后的损失函数：核心特点

参数稀疏化

：L1的绝对值惩罚会导致部分参数被“压缩”到0，从而自动完成“特征选择”（删除对模型贡献极小的特征）。例：用Lasso处理“房价预测”数据时，若“小区绿化率”的参数被置为0，说明该特征对房价影响可忽略，模型训练时无需考虑。

计算挑战：绝对值函数在处不可导，传统梯度下降无法直接使用，需用“次梯度下降”“坐标下降”等特殊优化方法。

适用场景

：特征维度高、存在大量冗余特征的场景（如文本分类中的词袋模型，特征数可能达数万，需筛选核心词汇）。

3.L1与L2的对比：为什么L1能稀疏化？

L1和L2的核心差异源于惩罚项的“几何形状”，可通过“约束域”直观理解：假设模型仅含两个参数和，正则化等价于在“参数空间”中加入一个约束域，损失函数的最优解需落在“约束域与损失函数等高线的切点”上：

L2的约束域是圆形：切点通常不在坐标轴上，因此参数不会为0；

L1的约束域是正方形：正方形的顶点在坐标轴上（如，切点更易落在顶点，导致某一参数为0。

对比维度

L1正则化（Lasso）

L2正则化（Ridge）

惩罚项形式（绝对值和）（平方和）参数效果部分参数置为0（稀疏化/特征选择）

所有参数缩小，不置为0

抗多重共线性

弱（可能删除相关特征中的一个）

强（通过缩小参数缓解相关性影响）

优化难度

高（不可导，需特殊方法）

低（可导，支持梯度下降）

适用场景

高维、冗余特征数据

特征均有意义、需保留所有特征

4.Estiet（弹性网络）：L1与L2的结合

为兼顾L1的“特征选择”和L2的“抗共线性”，Estiet同时引入L1和L2惩罚项，损失函数为：其中控制L1强度，控制L2强度。适用场景：特征维度极高且存在多重共线性的场景（如基因数据，特征数远大于样本数，且基因间存在相关性）。

三、深度学习中的正则化方法

深度学习模型（如、Transforr）参数规模庞大（动辄千万级），过拟合风险更高，除了上述L1/L2，还需针对性的正则化技术。

1.权重衰减（WeightDecay）

本质

：深度学习中L2正则化的常用实现方式，通过在优化器中直接对参数进行“按比例衰减”（如SGD、Ada优化器均支持weight_decay参数）。

原理

：每次参数更新时，先将参数乘以一个小于1的系数（如0.99），再进行梯度下降，等价于在损失函数中加入L2惩罚项。

注意

：权重衰减仅作用于权重参数，不作用于偏置项和Bat的参数（因这些参数对模型复杂度影响小）。

本章未完，点击下一页继续阅读。

章节报错(免登录)