拉普拉斯分布

📅 2026/7/1 16:09:49
拉普拉斯分布
拉普拉斯分布Laplace Distribution也叫双指数分布是统计学中一种非常独特的概率分布。如果说正态分布是“温和、圆润”的那么拉普拉斯分布就是“尖锐、刺头”的。在机器学习领域它之所以名声大噪是因为它完美解释了L1 正则化Lasso 回归背后的概率学本质。一、 直观长相正态分布的“尖峰版”通俗解释拉普拉斯分布的形状看起来像是一个被纵向拉伸、变尖的正态分布。正态分布顶部是圆润的抛物线尾巴衰减得非常快呈平方级衰减。拉普拉斯分布顶部是一个尖锐的峰尖峰而两边的尾巴拖得比正态分布更长呈指数级衰减。生活中的例子正态分布就像全班同学的身高大家都集中在平均值附近极高和极矮的人极少。拉普拉斯分布就像“财富分配”或“社交媒体点赞数”。绝大多数人比如 99%的点赞数都是 0在尖峰处扎堆但有极少数人比如 1% 的大V拥有成千上万的点赞在长尾里。二、 拉普拉斯分布与 L1 正则化的绝妙联系核心考点还记得前面的博文中聊过的MAP最大后验估计吗在这里拉普拉斯分布迎来了它的高光时刻。在机器学习中为了防止模型过拟合我们会给损失函数加一个“惩罚项正则化”。如果假设参数服从正态分布推导出的 MAP 等价于L2 正则化Ridge。如果假设参数服从拉普拉斯分布推导出的 MAP 就刚好等价于L1 正则化Lasso为什么拉普拉斯分布能产生 L1 正则化这要从它的“尖峰”说起。拉普拉斯分布在 0 这个位置有一个极其尖锐的峰值这意味着它的先验概率认为“参数大概率应该是绝对的 0”。当模型在训练时那些对预测没什么贡献的“无用参数”会被这个强大的先验知识无情地“按”回 0。而那些真正有用的参数才会被保留下来。 核心洞察L2 正则化正态分布会让参数变得很小但不会为 0。L1 正则化拉普拉斯分布会直接把无用参数变成绝对的 0从而实现特征选择Feature Selection。三、 拉普拉斯分布 vs 正态分布对异常值的态度这两种分布在处理“极端大错异常值”时态度截然不同正态分布MSE 均方误差非常害怕异常值。因为误差要平方一个偏离 10 倍的异常值惩罚会被放大 100 倍。模型会被异常值带偏。拉普拉斯分布MAE 平均绝对误差对异常值非常宽容。它的惩罚是线性的偏离 10 倍惩罚就是 10 倍。所以基于拉普拉斯分布的模型如使用 MAE 作为损失函数具有极强的鲁棒性Robustness不容易被少数极端数据带偏。四、 一句话总结拉普拉斯分布是一种“尖峰长尾”的概率分布。它在机器学习中的最大贡献是作为L1 正则化Lasso的理论基石通过其“在 0 处极其尖锐”的特性强迫模型剔除无用特征实现自动的特征选择。