在统计学中, z z z分数(z-score),也称为标准分数(standard score),是一种用于衡量某一数据点在其所属数据集中相对位置的统计量。以下是关于 z z z 分数的详细介绍:
定义与计算公式定义
z 分数表示的是某个数据值与数据集均值之间的距离,这个距离是以标准差为单位来衡量的。
计算公式:对于一个给定的数据集 x 1 , x 2 , . . . , x n x_1, x_2,..., x_n x1,x2,...,xn,其均值为 μ \mu μ,标准差为 σ \sigma σ,那么数据集中某一具体数据 x x x的 z z z 分数 z z z的计算公式为 z = x − μ σ z=\frac{x-\mu}{\sigma} z=σx−μ。
例如,某个班级学生的考试成绩均值为 80 分,标准差为 10 分,小明的成绩是 90 分,那么小明成绩的 z 分数为 z = 90 − 80 10 = 1 z=\frac{90 - 80}{10}=1 z=1090−80=1。
性质与作用性质
- 标准化: z z z 分数将原始数据进行了标准化处理,使得不同均值和标准差的数据集可以在同一标准下进行比较。所有数据经过 z z z 分数转换后,新数据集的均值为 0,标准差为 1。
- 正负性: z z z分数可以为正、负或零。正的 z z z 分数表示该数据点大于均值,负的 z z z 分数表示该数据点小于均值, z z z 分数为零表示该数据点等于均值。
作用
- 异常值检测:在数据清洗和预处理过程中, z z z 分数可以帮助识别异常值。通常,如果一个数据点的 z z z 分数绝对值大于 3,就可以初步认为它是一个异常值。
- 比较不同数据集的数据:当需要比较来自不同均值和标准差的数据集的数据时, z z z 分数非常有用。比如,比较不同班级学生在不同科目考试中的成绩表现,通过计算 z z z 分数可以将成绩放在同一尺度下进行比较,判断学生在各自班级中的相对位置。
- 概率计算:在正态分布中, z z z 分数与概率有着直接的对应关系。通过 z z z 分数,可以利用标准正态分布表快速查找某个数据点在正态分布中出现的概率。例如, z z z 分数为 1 对应的概率约为 0.8413,表示在正态分布中,数据值小于该 z z z 分数对应的原始数据值的概率约为 84.13%。