偏度|定义,例子和公式

偏态是对分布不对称性的一种度量。当一个分布的左右两边不是镜像时,它就是不对称的。

分布可以有右(或正)、左(或负)或零偏度。右偏分布的峰值右侧较长,左偏分布的峰值左侧较长:

分布的偏态

你可能想要计算分布的偏度为:

  • 描述一个变量与其他变量的分布描述性统计
  • 确定一个变量是否为正态分布.正态分布具有零偏态,是许多统计程序的假设。

什么是零倾斜?

当一个分布有零倾斜时,它是对称的。它的左右两边是镜像。

正态分布有零倾斜,但它们不是唯一有零倾斜的分布。任何对称分布,如均匀分布或一些双峰(双峰)分布,也会有零倾斜。

检查一个变量是否具有倾斜分布的最简单方法是将其绘制在直方图中。例如,六周大的小鸡的体重如下面的直方图所示。

该分布近似对称,观测值在其峰值的左右两侧分布相似。因此,该分布具有近似为零的歪斜。

零倾斜对称

在零偏态分布中的意思是而且中位数是相等的。

零倾斜:平均值=中位数

例如,小鸡的平均体重是261.3克,中位数是258克。平均值和中位数几乎相等。它们不是完全相等的因为样本分布的偏态很小。

虽然理论上的分布(如z分布)可以有零倾斜,实际数据几乎总是有至少一点倾斜。然而,如果一个分布接近对称,出于实际目的,例如验证模型假设,它通常被认为具有零倾斜。

什么是右偏(正偏)?

右偏分布的峰值右侧比左侧更长。右偏也称为正偏。

你可以用尾巴来考虑偏度。尾巴是分布的一个长而逐渐变细的末端。这表明在分布的一个极端端存在观测,但它们相对较少。右偏分布的右侧有一个长尾。

每年观测到的太阳黑子的数量,如下面的直方图所示,是右偏分布的一个例子。太阳黑子是太阳表面较暗、较冷的区域,天文学家在1749年至1983年间观测到。

分布是右偏的,因为它在峰值的右侧更长。右边有一个长尾,这意味着每隔几十年就会有一年观测到的太阳黑子数量远远高于平均水平。

正偏

的意思是右偏分布的值总是大于中位数.这是因为极端值(尾部的值)对平均值的影响大于中位数。

右偏:平均值>中位数

例如,每年观测到的太阳黑子的平均数量为48.6个,大于39个的中位数。

接收关于语言、结构和格式的反馈

专业编辑校对和编辑您的论文,重点:

  • 学术风格
  • 模糊的句子
  • 语法
  • 风格的一致性

请看例子

什么是左偏(负偏)?

左偏分布的峰值左侧比右侧更长。换句话说,左偏分布的左侧有一个长尾。左偏也称为负偏。

考试成绩通常呈左偏分布,大多数学生表现相对较好,少数学生表现远低于平均水平。下面的直方图显示了印度学生在高中结束时参加的标准化考试中动物学部分的分数。

分布是左偏的,因为它在峰值的左边更长。左边的长尾代表了分数很低的一小部分学生。

左偏负偏

的意思是的值总是小于它的值中位数

左偏:平均值<中位数

例如,生态测试的平均分数为53.7分,低于中位数(55分)。

如何计算偏度

有几个公式可以测量偏度。最简单的一个是皮尔逊的中位数偏度。它利用了一个事实,即在倾斜分布中,平均值和中位数是不相等的。

Pearson中位数偏度=3 \ \ dfrac {(\ textup{意味着}- \ textup{}中位数)}{\ textup{标准\ \,偏差}}

皮尔逊中位数偏度告诉你有多少标准差分开均值和中值。

真实的观察很少有恰好为0的皮尔逊中位数偏度。如果数据的值接近0,则可以认为它具有零倾斜。对于怎样才算“足够接近”0并没有标准的约定(尽管本研究建议0.4和−0.4是大样本的合理边界)。

示例:计算皮尔逊的中位数偏度
每年观测到的太阳黑子数量的皮尔逊偏位数:

计算

Pearson中位数偏度=3 \ \ dfrac {(\ textup{意味着}- \ textup{}中位数)}{\ textup{标准\ \,偏差}}

Pearson中位数偏度=3 \ \ dfrac {(48.6 -39)} {39.5}

Pearson中位数偏度=0.73

如果你的数据有偏差该怎么办

检查分布是否倾斜的一个原因是验证数据是否适合某个统计过程。许多统计程序假设变量或残差为正态分布.歪斜是分布与正态分布不同的一种常见方式。

如果你的统计过程需要一个正态分布,而你的数据是倾斜的,你通常有三个选择:

  1. 什么都不做.许多统计测试,包括t测试方差分析,线性回归美国人对扭曲的数据不太敏感。特别是如果偏差是轻微或中度的,最好忽略它。
  1. 使用不同的模型.你可能想要选择一个不假设正态分布的模型。非参数测试或者广义线性模型更适合你的数据。
  1. 变换变量.另一种选择是转换一个倾斜的变量,使其倾斜程度降低。“变换”是指将相同的函数应用于一个变量的所有观测值。
基于倾斜类型的转换
倾斜类型 倾斜强度 转换
正确的 温和的 不要变换
温和的 平方根
强大的 自然对数
非常强烈的 以10为底的对数
温和的 不要变换
温和的 反射*然后平方根
强大的 然后是自然对数
非常强烈的 反射*然后log以10为底

*在这种情况下,“reflect”的意思是采取最大的观察,K,然后减去每个观察到的K+ 1。请记住,反射反转了变量的方向及其与其他变量的关系(即,正关系变为负关系)。

示例:转换右倾斜的变量
假设你用线性回归来预测每年观测到的太阳黑子的数量,你发现残差不是正态分布的。

由于每年观测到的太阳黑子数量是右偏的,你可以尝试通过转换变量来解决这个问题。你也可以忽略倾斜,因为线性回归对倾斜不是很敏感。

从一个平方根变换开始。如果这还不足以纠正倾斜,您可以转到下一个转换选项。

每年太阳黑子的数量 根数(每年太阳黑子数)
5 2236年
11 3317年
16 4000年
23 4796年
... ...

当您在直方图上绘制转换后的变量时,您可以看到它现在有接近于零的倾斜。你可以用线性回归中转换后的变量替换每年太阳黑子的数量。线性回归的残差很可能是正态分布的。

改变分布

实践问题

关于偏度的常见问题

偏度和峰度的区别是什么?

偏态而且峰度两者都是衡量分布形状的重要指标。

  • 偏态测量分布的不对称性。
  • 峰度测量分布尾部相对于分布尾部的重量正态分布

偏度和峰度的区别

三种类型的偏度是什么?

这三种类型偏态是:

  • 右斜(也称为正偏右偏分布的峰值右侧比左侧更长。
  • 左斜(也称为负倾斜)。左偏分布的峰值左侧比右侧更长。
  • 零倾斜。它是对称的,左右两边是镜像。

分布的偏态

什么是正态分布?

在一个正态分布,数据对称分布,无歪斜。大多数值都聚集在一个中心区域周围,当值离中心越远时,值就越小。

集中趋势的度量(均值、众数和中位数)在正态分布中完全相同。

正态分布

引用这篇Scribbr文章

如果你想引用这个来源,你可以复制和粘贴引用或点击“引用这篇Scribbr文章”按钮,自动添加到我们的免费引用生成器引用。

特尼,S.(2022年7月12日)。偏度|定义,例子和公式。Scribbr。2023年2月6日,从//www.charpingshvac.com/statistics/skewness/检索到

这篇文章有用吗?
肖恩·特尼

在他的硕士和博士期间,Shaun学习了如何将科学和统计方法应用到他的生态学研究中。现在,他喜欢教学生如何为他们自己的论文和研究项目收集和分析数据。
Baidu