集中趋势|理解平均值,中位数和模式
集中趋势的度量帮助您找到数据集的中间值或平均值。集中趋势的3种最常见的测量方法是众数、中位数和平均值。
除了集中趋势外,数据集的可变性和分布对理解执行时也很重要描述性统计.
分布和集中趋势
数据集是分布的n分数或值的数目。
正态分布
在一个正态分布时,数据对称分布,无斜.大多数值都聚集在一个中心区域周围,当值离中心越远时,值就越小。正态分布的均值、众数和中位数是完全相同的。
倾斜分布
在倾斜在分布中,更多的值落在中心的一边而不是另一边,并且平均值、中位数和众数都彼此不同。一边的尾巴更分散、更长,一端的分数比另一端少。尾巴的方向告诉你倾斜的方向
在正偏态分布中,得分较低的人群聚集在一起,而右边的人群尾巴则分散开来。在一个负倾斜的分布中,有一个较高分数的集群,左侧有一个分散的尾巴。
模式
的模式是数据集中最常出现的值。有可能没有模态,有一种模态,或者不止一种模态。
要找到模式,请对数据集进行数字排序或直截了当地然后选择出现频率最高的响应。
要找到模式,请按类别对数据进行排序,并找出选择频率最高的响应。
为了简化操作,可以创建一个频率表计算每个类别的值。
政治意识形态 | 频率 |
---|---|
保守的 | 2 |
温和的 | 3. |
自由 | 4 |
模式:自由
模态在柱状图中很容易看到,因为它是具有最高柱状的值。
何时使用该模式
该模式最适用于标称测量级别的数据。名义上的数据被划分为相互排斥的类别,因此模式告诉您最受欢迎的类别。
对于连续变量或率水平在测量方面,模式可能不是集中趋势的有用测量。这是因为可能的值比标称或的值要多得多序数测量水平。一个值不太可能以比率重复测量水平.
参与者 | 1 | 2 | 3. | 4 | 5 | 6 | 7 | 8 | 9 |
---|---|---|---|---|---|---|---|---|---|
反应时间(毫秒) | 267 | 345 | 421 | 324 | 401 | 312 | 382 | 298 | 303 |
在这个数据集中,没有模式,因为每个值只出现一次。
中位数
的中位数的值是数据集从低到高排序时恰好位于中间的值。
参与者 | 1 | 2 | 3. | 4 | 5 | 6 | 7 |
---|---|---|---|---|---|---|---|
速度 | 媒介 | 慢 | 快 | 快 | 媒介 | 快 | 慢 |
要找到中位数,首先要将所有值从低到高排序。然后,在有序数据集的中间找到值——在本例中,值位于第4个位置。
命令数据集 | 慢 | 慢 | 媒介 | 媒介 | 快 | 快 | 快 |
---|
中位数:中等
在较大的数据集中,使用简单的公式更容易找出分布中中间值的位置。您可以使用不同的方法来查找数据集的中位数,这取决于值的总数是偶数还是奇数。
奇数数据集的中位数
对于奇数数据集,查找位于 的位置,n是数据集中的值的数量。
反应时间(毫秒) | 287 | 298 | 345 | 365 | 380 |
---|
中间位置用 ,在那里n= 5。
这意味着中位数是有序数据集中的第三个值。
中位数:345毫秒
偶数数据集的中位数
对于偶数数据集,找到数据集中间的两个值: 而且 的位置。然后,求它们的均值。
反应时间(毫秒) | 287 | 298 | 345 | 357 | 365 | 380 |
---|
中间位置计算使用 而且 ,在那里n= 6。
这意味着中间的值是第三个值,也就是345,第四个值为357.
要得到中位数,请将两个中间值的平均值相加并除以2。
中位数:351毫秒
的意思是
的算术平均值数据集的几何平均数)是所有值的和除以值的总数。这是最常用的集中趋势的测量方法,因为所有的值都被用于计算。
参与者 | 1 | 2 | 3. | 4 | 5 |
---|---|---|---|---|---|
反应时间(毫秒) | 287 | 345 | 365 | 298 | 380 |
首先将所有值相加:
然后你用公式计算平均值
数据集中有5个值,所以n= 5。
意思是(x̄): 335毫秒
平均值的离群值效应
离群值当计算中包含它们时,可以显著增加或减少平均值。由于所有值都用于计算平均值,因此可能会受到极端异常值的影响。离群值是与数据集中其他值显著不同的值。
参与者 | 1 | 2 | 3. | 4 | 5 |
---|---|---|---|---|---|
反应时间(毫秒) | 832 | 345 | 365 | 298 | 380 |
由于离群值,平均值( )变得更高,即使数据集中所有其他数字保持不变。
平均:444毫秒
总体与样本均值
类中的值样本或总体.总体是你感兴趣研究的整个群体,而样本只是总体的一个子集。
虽然来自样本的数据可以帮助您对总体进行估计,但只有完整的总体数据才能为您提供完整的画面。
在统计学中,样本平均数和总体平均数的符号及其公式是不同的。但是计算总体和样本均值的方法是一样的。
什么时候应该使用平均值、中值或众数?
集中倾向的3种主要测量方法最好相互结合使用,因为它们具有互补的优点和局限性。但有时只有1或2个适用于你的数据集,这取决于变量的测量水平。
- 该模式可用于任何级别的测量,但对标称级和序数级最有意义。
- 中位数只能用于可排序的数据,即从顺序、间隔和比率级别的测量。
- 平均值只能用于测量的间隔和比率水平,因为它要求在量表中相邻值或分数之间有相等的间距。
测量水平 | 例子 | 集中趋势的度量 |
---|---|---|
名义上的 |
|
|
序数 |
|
|
时间间隔而且比 |
|
|
要决定使用哪种集中倾向度量,还应该考虑数据集的分布。
为正态分布数据,所有三种集中趋势的测量都会给你相同的答案,所以它们都可以被使用。
在倾斜在分布中,中位数是最好的衡量标准,因为它不受极端值的影响离群值或者分数的非对称分布。均值和模态可以在倾斜分布中变化。
关于集中趋势的常见问题
引用这篇Scribbr文章
如果你想引用这个来源,你可以复制和粘贴引用或点击“引用这篇Scribbr文章”按钮,自动添加到我们的免费引用生成器引用。