什么是描述性统计?它在数据分析中的作用是什么?

📅 2026/6/28 3:39:10
什么是描述性统计?它在数据分析中的作用是什么?
描述性统计及其在数据分析中的作用一、什么是描述性统计描述性统计是用几个关键数字概括一堆数据的整体特征让数据从不可读变为一目了然。10,000 条薪资记录 → 均值 12,800 / 中位数 9,500 / 标准差 8,200一万行数字看不完但三个数就能建立基本认知大部分人在 1 万左右但少数高薪把均值拉高了分布偏右。描述性统计不做推断、不做预测只回答数据长什么样。二、三大核心维度1. 集中趋势 — 数据聚集在哪里指标计算方式特点适用场景均值所有值求和 ÷ 个数受极端值影响大近似正态分布的数值中位数排序后取中间值不受极端值影响偏态分布、有异常值众数出现频率最高的值可能有多个或没有分类变量截尾均值去掉两端各5%后求均值兼顾均值和中位数优点有少量极端值但想用均值均值 vs 中位数的经典场景某部门 8 人月薪: 6K, 7K, 7K, 8K, 8K, 9K, 10K, 85K 均值 17.5K → 看起来大家薪资很高 中位数 8K → 更接近大多数人的真实水平 原因: 1 个 85K总监把均值拉高了 2 倍多结论数据偏态时报告中位数比均值更诚实。2. 离散程度 — 数据散得多开指标含义解读极差最大值 - 最小值简单粗糙只看两端方差各值与均值之差的平方的均值值越大越分散单位是原单位的平方标准差方差的平方根最常用与原数据同单位变异系数(CV)标准差 ÷ 均值消除量纲影响比较不同量级数据的离散度IQRQ3 - Q1只看中间50%的离散度不受极端值影响离散程度的直觉理解A 组薪资: 8K, 8K, 8K, 8K, 8K 标准差 0 → 人人一样 B 组薪资: 4K, 6K, 8K, 10K, 12K 标准差 2.8K → 拉开差距 C 组薪资: 3K, 5K, 8K, 15K, 35K 标准差 11K → 差距悬殊 均值都是 8K但离散度天差地别IQR 与箱线图配合┌──────────────┐ ──┤ │ ┌──┐ │ ├── min Q1 中位数 Q3 max ├──── IQR ────┤ Q1-1.5×IQR 或 Q31.5×IQR 异常值3. 分布形态 — 数据的形状指标含义取值解读偏度(Skewness)分布的不对称程度0完全对称正态0右偏正偏长尾在右侧均值 中位数0左偏负偏长尾在左侧均值 中位数峰度(Kurtosis)分布的尖峭/平坦程度0 (超额峰度)与正态相同0尖峰比正态更集中厚尾0平峰比正态更分散薄尾右偏是业务数据中最常见的形态频率 │ ██ │ ██ ██ │ ██ ██ ██ │ ██ ██ ██ ██ │ ██ ██ ██ ██ ██ ██ │ ██ ██ ██ ██ ██ ██ ██ ██ ─ ─ ─ ─ ─ ─ → 薪资 │ 低薪人多 高薪人少但拉得很远 均值(12K) 中位数(9K) 众数(7K)典型右偏数据薪资、房价、订单金额、网页浏览量、用户活跃天数。三、在数据分析中的作用1. 数据摸底 — 第一步必做拿到数据的第一件事不是建模而是描述统计建立对数据的手感。importpandasaspd dfpd.read_csv(orders.csv)# 一行搞定基本描述print(df.describe())输出amount quantity discount count 10000.000000 10000.000000 9820.000000 mean 258.300000 3.200000 0.080000 std 890.500000 5.100000 0.120000 min 0.010000 1.000000 0.000000 25% 45.000000 1.000000 0.000000 50% 120.000000 2.000000 0.050000 75% 280.000000 4.000000 0.100000 max 58000.000000 200.000000 0.800000从这幅数字快照中能立刻发现amount 均值 258 但中位数 120 → 右偏严重amount 最大值 58000 远超 Q3 的 280 → 有极端大额订单discount 只有 9820 条非空 → 约 1.8% 缺失quantity 最大值 200 → 可能是批量采购或异常2. 数据质量筛查 — 发现异常的雷达信号可能的问题均值远大于中位数右偏或存在极端异常值标准差极大数据离散度高混合了不同群体极值超出业务常理录入错误或单位错误count 不一致有缺失值众数为异常值数据采集/录入可能有系统性问题3. 指标体系构建 — 定义看什么日常经营监控的核心指标本质上就是描述性统计的汇总业务场景集中趋势指标离散程度指标电商日均 GMV、客单价订单金额标准差、转化率波动电信日均话务量、ARPU流量使用变异系数制造平均良率、平均产出缺陷率标准差、批次间差异人力平均薪资、平均在职年限薪资基比P90/P104. 分组对比 — 发现差异的起点描述性统计最强大的应用不是看整体而是拆开看# 按渠道分组描述print(df.groupby(channel)[amount].describe())channel count mean std min 25% 50% 75% max 线上 6000 310 950 1 55 145 340 58000 线下 3000 180 420 5 40 100 210 12000 电话 1000 150 280 2 35 85 180 8000一眼看出线上渠道均值高但方差大有大单拉动的特征。5. 为建模做准备建模前检查用到的描述统计特征是否有区分度标准差≈0 的特征对模型无用是否需要标准化量级差异大的特征需标准化是否需要处理偏态右偏严重的特征可做 log 变换样本是否均衡分类标签的频数统计是否需要分箱连续变量与目标变量的关系四、常用工具速查工具操作适合ExcelAVERAGE()MEDIAN()STDEV()数据透视表快速查看非程序员Pythondf.describe()df.value_counts()df.groupby().agg()批量处理可复现SQLAVG()MEDIAN()STDDEV()PERCENTILE()直接在数据库层统计Rsummary()psych::describe()学术研究Python 常用代码片段# 基本描述df.describe(includeall)# 单列分位数df[amount].quantile([0.01,0.05,0.25,0.5,0.75,0.95,0.99])# 偏度、峰度df[amount].skew(),df[amount].kurtosis()# 分组聚合df.groupby(dept).agg(人数(salary,count),均值(salary,mean),中位数(salary,median),标准差(salary,std),P10(salary,lambdax:x.quantile(0.1)),P90(salary,lambdax:x.quantile(0.9)),)五、描述性统计的局限局限说明应对只看表面均值相同不代表分布相同安斯库姆四重奏配合可视化不做因果判断相关不等于因果需要推断统计或实验设计不做预测描述过去不预判未来需要预测建模受样本偏差影响抽样偏差下描述统计也偏差先检查样本代表性整体掩盖局部总体均值可能对任何子群体都不准确拆分维度看安斯库姆四重奏提醒四组数据的均值、方差、相关系数、回归线完全一样但数据长得完全不同——永远要画图不能只看统计量。## 描述性统计及其在数据分析中的作用一、什么是描述性统计描述性统计是用几个关键数字概括一堆数据的整体特征让数据从不可读变为一目了然。10,000 条薪资记录 → 均值 12,800 / 中位数 9,500 / 标准差 8,200一万行数字看不完但三个数就能建立基本认知大部分人在 1 万左右但少数高薪把均值拉高了分布偏右。描述性统计不做推断、不做预测只回答数据长什么样。二、三大核心维度1. 集中趋势 — 数据聚集在哪里指标计算方式特点适用场景均值所有值求和 ÷ 个数受极端值影响大近似正态分布的数值中位数排序后取中间值不受极端值影响偏态分布、有异常值众数出现频率最高的值可能有多个或没有分类变量截尾均值去掉两端各5%后求均值兼顾均值和中位数优点有少量极端值但想用均值均值 vs 中位数的经典场景某部门 8 人月薪: 6K, 7K, 7K, 8K, 8K, 9K, 10K, 85K 均值 17.5K → 看起来大家薪资很高 中位数 8K → 更接近大多数人的真实水平 原因: 1 个 85K总监把均值拉高了 2 倍多结论数据偏态时报告中位数比均值更诚实。2. 离散程度 — 数据散得多开指标含义解读极差最大值 - 最小值简单粗糙只看两端方差各值与均值之差的平方的均值值越大越分散单位是原单位的平方标准差方差的平方根最常用与原数据同单位变异系数(CV)标准差 ÷ 均值消除量纲影响比较不同量级数据的离散度IQRQ3 - Q1只看中间50%的离散度不受极端值影响离散程度的直觉理解A 组薪资: 8K, 8K, 8K, 8K, 8K 标准差 0 → 人人一样 B 组薪资: 4K, 6K, 8K, 10K, 12K 标准差 2.8K → 拉开差距 C 组薪资: 3K, 5K, 8K, 15K, 35K 标准差 11K → 差距悬殊 均值都是 8K但离散度天差地别IQR 与箱线图配合┌──────────────┐ ──┤ │ ┌──┐ │ ├── min Q1 中位数 Q3 max ├──── IQR ────┤ Q1-1.5×IQR 或 Q31.5×IQR 异常值3. 分布形态 — 数据的形状指标含义取值解读偏度(Skewness)分布的不对称程度0完全对称正态0右偏正偏长尾在右侧均值 中位数0左偏负偏长尾在左侧均值 中位数峰度(Kurtosis)分布的尖峭/平坦程度0 (超额峰度)与正态相同0尖峰比正态更集中厚尾0平峰比正态更分散薄尾右偏是业务数据中最常见的形态频率 │ ██ │ ██ ██ │ ██ ██ ██ │ ██ ██ ██ ██ │ ██ ██ ██ ██ ██ ██ │ ██ ██ ██ ██ ██ ██ ██ ██ ─ ─ ─ ─ ─ ─ → 薪资 │ 低薪人多 高薪人少但拉得很远 均值(12K) 中位数(9K) 众数(7K)典型右偏数据薪资、房价、订单金额、网页浏览量、用户活跃天数。三、在数据分析中的作用1. 数据摸底 — 第一步必做拿到数据的第一件事不是建模而是描述统计建立对数据的手感。importpandasaspd dfpd.read_csv(orders.csv)# 一行搞定基本描述print(df.describe())输出amount quantity discount count 10000.000000 10000.000000 9820.000000 mean 258.300000 3.200000 0.080000 std 890.500000 5.100000 0.120000 min 0.010000 1.000000 0.000000 25% 45.000000 1.000000 0.000000 50% 120.000000 2.000000 0.050000 75% 280.000000 4.000000 0.100000 max 58000.000000 200.000000 0.800000从这幅数字快照中能立刻发现amount 均值 258 但中位数 120 → 右偏严重amount 最大值 58000 远超 Q3 的 280 → 有极端大额订单discount 只有 9820 条非空 → 约 1.8% 缺失quantity 最大值 200 → 可能是批量采购或异常2. 数据质量筛查 — 发现异常的雷达信号可能的问题均值远大于中位数右偏或存在极端异常值标准差极大数据离散度高混合了不同群体极值超出业务常理录入错误或单位错误count 不一致有缺失值众数为异常值数据采集/录入可能有系统性问题3. 指标体系构建 — 定义看什么日常经营监控的核心指标本质上就是描述性统计的汇总业务场景集中趋势指标离散程度指标电商日均 GMV、客单价订单金额标准差、转化率波动电信日均话务量、ARPU流量使用变异系数制造平均良率、平均产出缺陷率标准差、批次间差异人力平均薪资、平均在职年限薪资基比P90/P104. 分组对比 — 发现差异的起点描述性统计最强大的应用不是看整体而是拆开看# 按渠道分组描述print(df.groupby(channel)[amount].describe())channel count mean std min 25% 50% 75% max 线上 6000 310 950 1 55 145 340 58000 线下 3000 180 420 5 40 100 210 12000 电话 1000 150 280 2 35 85 180 8000一眼看出线上渠道均值高但方差大有大单拉动的特征。5. 为建模做准备建模前检查用到的描述统计特征是否有区分度标准差≈0 的特征对模型无用是否需要标准化量级差异大的特征需标准化是否需要处理偏态右偏严重的特征可做 log 变换样本是否均衡分类标签的频数统计是否需要分箱连续变量与目标变量的关系四、常用工具速查工具操作适合ExcelAVERAGE()MEDIAN()STDEV()数据透视表快速查看非程序员Pythondf.describe()df.value_counts()df.groupby().agg()批量处理可复现SQLAVG()MEDIAN()STDDEV()PERCENTILE()直接在数据库层统计Rsummary()psych::describe()学术研究Python 常用代码片段# 基本描述df.describe(includeall)# 单列分位数df[amount].quantile([0.01,0.05,0.25,0.5,0.75,0.95,0.99])# 偏度、峰度df[amount].skew(),df[amount].kurtosis()# 分组聚合df.groupby(dept).agg(人数(salary,count),均值(salary,mean),中位数(salary,median),标准差(salary,std),P10(salary,lambdax:x.quantile(0.1)),P90(salary,lambdax:x.quantile(0.9)),)五、描述性统计的局限局限说明应对只看表面均值相同不代表分布相同安斯库姆四重奏配合可视化不做因果判断相关不等于因果需要推断统计或实验设计不做预测描述过去不预判未来需要预测建模受样本偏差影响抽样偏差下描述统计也偏差先检查样本代表性整体掩盖局部总体均值可能对任何子群体都不准确拆分维度看安斯库姆四重奏提醒四组数据的均值、方差、相关系数、回归线完全一样但数据长得完全不同——永远要画图不能只看统计量。