正态分布、泊松分布、逻辑回归

📅 2026/7/1 15:34:53
正态分布、泊松分布、逻辑回归
正态分布、泊松分布、逻辑回归这三个概念是机器学习和统计学中最经典、最常用的“三剑客”。不过在开始通俗解释之前我们需要先做一个小小的“纠偏”逻辑回归Logistic Regression并不是概率分布而是一个分类算法模型。它之所以叫“回归”是因为它借用了线性回归的数学形式但它预测的不是连续的具体数值而是“属于某一类的概率”。为了让你彻底理清它们我们继续用生活中的通俗例子来拆解一、 正态分布Normal Distribution连续数据的“默认设定”通俗解释正态分布也叫高斯分布用来描述连续型数据它的形状像一口对称的钟特征是“中间多、两头少”。生活例子人类身高、考试成绩大部分人都集中在平均值附近极高和极低的人极少。测量误差你拿一把尺子去量桌子的长度每次量出来的结果会有微小偏差这些偏差通常服从正态分布。在机器学习中的作用它是很多算法如线性回归的底层假设。我们假设数据的“误差”是正态分布的这样算出来的模型才最靠谱。二、 泊松分布Poisson Distribution离散事件的“计数器”通俗解释泊松分布用来描述离散型数据专门用来计算“在固定的时间或空间内某件事发生特定次数的概率”。它的形状通常是不对称的右偏态有一个明显的长尾巴。生活例子客服接电话平均每小时接 5 个电话那么下一小时恰好接 8 个电话的概率是多少路口车祸一个十字路口平均每天发生 0.5 起车祸那么今天发生 3 起车祸的概率有多大网页点击量一篇文章平均每小时被点击 100 次下一秒恰好被点击 5 次的概率。在机器学习中的作用当你需要预测“次数”比如预测明天的销量、某地发生地震的次数时泊松分布就是最强大的武器。三、 逻辑回归Logistic Regression把预测变成“概率”的分类器通俗解释虽然名字里有“回归”但它其实是一个分类算法。它不预测具体的数值而是预测“这件事发生的可能性有多大概率在 0 到 1 之间”。生活例子垃圾邮件检测模型不会告诉你这封邮件“有多垃圾”而是告诉你“这封邮件是垃圾邮件的概率是 98%”。疾病诊断根据体检指标模型预测“你患糖尿病的概率是 85%”。广告点击预测用户看到广告后模型预测“他点击这个广告的概率是 12%”。它和正态分布的关系逻辑回归内部用到了一个叫Sigmoid 函数S型曲线的数学工具。这个函数的作用就是把线性回归算出来的任意数值可能从负无穷到正无穷强行“压缩”到 0 到 1 之间变成一个概率值。四、 一张图看懂它们的区别与联系概念数据类型核心问题生活场景正态分布连续型数据的“波动规律”是什么身高、体重、考试分数泊松分布离散型某件事发生的“次数”是多少电话呼叫、车祸次数、销量逻辑回归算法模型某件事发生的“概率”有多大垃圾邮件、疾病诊断、广告点击五、 一句话总结正态分布描述的是连续数据的“对称规律”泊松分布计算的是离散事件的“发生次数”而逻辑回归则是一个利用数学函数将预测结果转化为“概率”的经典分类算法。