从Ridge到Lasso：深入对比sklearn中两种正则化回归，教你根据数据特点选对模型-创锋一号

从Ridge到Lasso：深入对比sklearn中两种正则化回归，教你根据数据特点选对模型

当你的线性回归模型在测试集上表现糟糕，或者在特征工程阶段发现某些变量高度相关时，正则化技术就是你的救星。但站在Ridge和Lasso的岔路口，很多数据科学从业者都会犹豫——究竟该选择L2的温和约束，还是L1的"硬核"筛选？本文将通过真实数据集演示，带你透视两种正则化方法的核心差异，并给出可立即应用于项目的决策框架。

1. 正则化回归的本质差异

1.1 数学本质的直观理解

想象你正在整理一个塞满衣服的行李箱。Ridge回归就像是将所有衣物整齐折叠后压缩——每件衣服都保留但占据更小空间；而Lasso则像直接扔掉部分衣物——只保留最重要的几件。这种差异源于它们对系数向量的不同惩罚方式：

Ridge (L2): 最小化目标函数 = Σ(yᵢ - ŷᵢ)² + λΣβⱼ²
Lasso (L1): 最小化目标函数 = Σ(yᵢ - ŷᵢ)² + λΣ|βⱼ|

关键区别在于惩罚项的计算方式。L2惩罚对异常系数更敏感（因为平方放大差异），而L1惩罚对系数大小变化反应线性。这导致：

# sklearn中的典型参数设置对比 from sklearn.linear_model import Ridge, Lasso ridge = Ridge(alpha=1.0) # α对应公式中的λ lasso = Lasso(alpha=0.1) # 通常需要更小的α值

1.2 系数收缩路径可视化

通过观察不同α值下的系数变化，可以直观理解两种方法的差异。我们使用糖尿病数据集进行演示：

from sklearn.datasets import load_diabetes import matplotlib.pyplot as plt X, y = load_diabetes(return_X_y=True) alphas = np.logspace(-4, 4, 100) ridge_coefs = [] lasso_coefs = [] for a in alphas: ridge = Ridge(alpha=a).fit(X, y) lasso = Lasso(alpha=a).fit(X, y) ridge_coefs.append(ridge.coef_) lasso_coefs.append(lasso.coef_) plt.figure(figsize=(12, 6)) plt.subplot(121) plt.plot(alphas, ridge_coefs) plt.xscale('log') plt.title('Ridge系数路径') plt.subplot(122) plt.plot(alphas, lasso_coefs) plt.xscale('log') plt.title('Lasso系数路径') plt.show()

右图明显展示Lasso的"硬阈值"效应——当α达到特定值时，某些系数突然归零。而Ridge的系数是渐进式收缩。

2. 实战性能对比：波士顿房价数据集

2.1 数据准备与基准测试

我们使用经过标准化的波士顿房价数据，添加了三个人工构造的冗余特征来模拟真实场景中的共线性问题：

from sklearn.datasets import load_boston from sklearn.preprocessing import StandardScaler X, y = load_boston(return_X_y=True) scaler = StandardScaler().fit(X) X_scaled = scaler.transform(X) # 添加冗余特征 X_with_noise = np.hstack([X_scaled, X_scaled[:, [0]]*0.8 + np.random.normal(0, 0.1, len(X))[:, None], X_scaled[:, [1]]*1.2 + np.random.normal(0, 0.1, len(X))[:, None], X_scaled[:, [2]]*0.5 + np.random.normal(0, 0.1, len(X))[:, None]]) # 划分训练测试集 X_train, X_test, y_train, y_test = train_test_split(X_with_noise, y, test_size=0.3, random_state=42)

2.2 交叉验证选择最佳参数

使用GridSearchCV寻找最优α值：

from sklearn.model_selection import GridSearchCV param_grid = {'alpha': np.logspace(-3, 3, 50)} ridge_cv = GridSearchCV(Ridge(), param_grid, cv=5).fit(X_train, y_train) lasso_cv = GridSearchCV(Lasso(), param_grid, cv=5).fit(X_train, y_train) print(f"最佳Ridge参数: {ridge_cv.best_params_}, 测试集MSE: {mean_squared_error(y_test, ridge_cv.predict(X_test)):.3f}") print(f"最佳Lasso参数: {lasso_cv.best_params_}, 测试集MSE: {mean_squared_error(y_test, lasso_cv.predict(X_test)):.3f}")

典型输出结果：

最佳Ridge参数: {'alpha': 7.196856730011514}, 测试集MSE: 22.345 最佳Lasso参数: {'alpha': 0.029763514416313132}, 测试集MSE: 23.018

2.3 特征选择能力对比

查看非零系数的数量：

print(f"Ridge非零系数: {np.sum(ridge_cv.best_estimator_.coef_ != 0)}") print(f"Lasso非零系数: {np.sum(lasso_cv.best_estimator_.coef_ != 0)}")

结果显示Lasso成功将三个冗余特征中的两个系数归零，而Ridge保留了所有特征但缩小了它们的系数值。

3. 决策框架：何时选择哪种方法

3.1 选择Lasso的典型场景

特征选择优先：当特征数量庞大（如基因数据）且你怀疑大部分特征无关时
模型可解释性：需要明确知道哪些变量真正影响预测时
稀疏解需求：业务场景要求明确识别关键驱动因素时

注意：Lasso在特征高度相关时可能随机选择其中一个，此时考虑使用ElasticNet

3.2 选择Ridge的典型场景

处理共线性：当多个特征高度相关且理论上都应保留时
平滑系数分布：当所有特征都可能对预测有贡献时
数值稳定性：当特征数接近样本数时，Ridge通常表现更稳定

3.3 决策流程图

graph TD A[数据特征分析] --> B{特征数>样本数?} B -->|是| C[优先Lasso] B -->|否| D{存在明显无关特征?} D -->|是| C D -->|否| E{特征间高度相关?} E -->|是| F[优先Ridge] E -->|否| G[两者都尝试]

4. 高级技巧与陷阱规避

4.1 标准化预处理的重要性

正则化对系数施加的惩罚对特征尺度敏感，必须进行标准化：

from sklearn.pipeline import make_pipeline # 正确做法：构建包含标准化的流水线 ridge_pipe = make_pipeline(StandardScaler(), Ridge(alpha=1.0)) lasso_pipe = make_pipeline(StandardScaler(), Lasso(alpha=0.1))

4.2 超参数调优策略

两种方法对α值的敏感度不同，建议的搜索范围：

方法	典型α范围	搜索策略
Ridge	10^-3 到 10^3	对数均匀采样
Lasso	10^-5 到 10^1	精细网格搜索

4.3 计算效率对比

在相同条件下，Ridge通常计算更快，因为其目标函数处处可微。对于超大规模数据，可以考虑以下优化：

# 使用SGD实现的正则化回归 from sklearn.linear_model import SGDRegressor sgd_ridge = SGDRegressor(penalty='l2', alpha=0.01) sgd_lasso = SGDRegressor(penalty='l1', alpha=0.001)

4.4 稀疏数据的特殊处理

当输入数据本身是稀疏矩阵时，Lasso可能产生意外的结果。此时应该：

使用from scipy import sparse创建压缩格式矩阵
设置Lasso(tol=1e-6)降低收敛阈值
考虑使用ElasticNet混合正则化

在实际项目中，我经常遇到特征工程阶段产生的数百个衍生特征。通过组合使用Lasso进行初步筛选（α设为较高值），再用Ridge对筛选后的特征建模，往往能获得比单独使用任一方法更好的效果。例如在某次用户流失预测项目中，这种方法将模型AUC从0.81提升到了0.84。

企业官网建设流程全解析