中心极限定理|公式,定义及例子
的中心极限定理说明如果你从总体中取足够大的样本,样本的均值将为正态分布,即使总体不是正态分布。
什么是中心极限定理?
中心极限定理依赖于a的概念抽样分布,即概率分布的统计对于大量的样品从一个种群中提取。
想象一个实验可以帮助你理解抽样分布:
样本均值的分布是一个例子抽样分布。
中心极限定理说均值的抽样分布总是正态分布,只要样本量足够大。无论总体是否具有正态分布、泊松分布、二项分布或任何其他分布,均值的抽样分布都将是正态分布。
正态分布是一种对称的钟形分布,离分布中心越远,观测值越少。
中心极限定理公式
幸运的是,你不需要重复抽样一个总体来知道抽样分布的形状。的参数均值的抽样分布是由总体的参数决定的:
- 的的意思是抽样分布是总体的均值。
- 的标准偏差抽样分布的标准差是总体的标准差除以样本容量的平方根。
我们可以用这样的符号来描述均值的抽样分布:
地点:
- X =样本均值的抽样分布
- ~表示“遵循分布”
- N是正态分布
- µ是总体的平均值
- σ是总体的标准差
- n是样本量
样本容量和中心极限定理
的样本大小(n)为每个样本从总体中抽取的观察数。所有样本的样本量都是一样的。
样本容量从两个方面影响均值的抽样分布。
1.样本大小和正态性
样本量越大,抽样分布越接近a正态分布.
当样本量较小时,均值的抽样分布有时是非正态分布。这是因为中心极限定理只在样本容量“足够大”时成立。
按照惯例,我们认为30的样本量“足够大”。
- 当n< 30,中心极限定理不适用。抽样分布将遵循与总体相似的分布。因此,只有总体是正态的,抽样分布才会是正态的。
- 当n≥30时,中心极限定理适用。抽样分布近似服从正态分布。
2.样本容量和标准差
样本量影响抽样分布的标准差。标准差是一种度量可变性或者分布的扩散(即,它有多宽或多窄)。
- 当n很低时,标准差较大。样本的均值有很大的分布,因为它们不是总体均值的精确估计。
- 当n是高的,标准偏差很低。样本的均值没有太大的差异,因为它们是对总体均值的精确估计。
中心极限定理的条件
中心极限定理指出,均值的抽样分布总是遵循a正态分布在下列条件下:
- 样本量为足够大的.如果样本量为n≥30。
- 样本是独立同分布(i.i.d)随机变量.这个条件通常满足,如果抽样是随机的.
- 人口分布已经有限的方差.中心极限定理不适用于方差无穷大的分布,比如柯西分布。大多数分布的方差是有限的。
中心极限定理的重要性
中心极限定理是最基本的统计定理之一。实际上,“中心极限定理”中的“中心”是指定理的重要性。
中心极限定理实例
将中心极限定理应用于实际分布可以帮助你更好地理解它是如何工作的。
连续分布
假设你对美国人的退休年龄感兴趣。的人口都是退休的美国人,人口分布可能是这样的:
退休年龄如下没有多分布。大多数人在平均退休年龄(65岁)的5年内退休。然而,也有“长尾”现象,人们退休的年龄要小得多,比如50岁甚至40岁。总体的标准差是6年。
想象你拿了一个小的样本在人口中。你随机选择5个退休人员,问他们退休的年龄。
68 | 73 | 70 | 62 | 63 |
样本均值是an估计总体均值。这可能不是一个非常精确的估计,因为样本量只有5个。
假设你重复这个过程10次,取5个退休人员的样本,并计算每个样本的平均值。这是一个均值的抽样分布.
60.8 | 57.8 | 62.2 | 68.6 | 67.4 | 67.8 | 68.3 | 65.6 | 66.5 | 62.1 |
如果你重复这个过程多次,样本均值的直方图将是这样的:
虽然这个抽样分布比总体更正态分布,但它仍然有一点左斜.
还要注意抽样分布的扩散小于总体的扩散。
的中心极限定理表示当样本容量足够大时,均值的抽样分布总是服从正态分布。均值的抽样分布不是正态分布因为样本容量不够大。
现在,假设你从人口中抽取一个大样本。你随机选择50个退休人员,问他们退休的年龄。
73 | 49 | 62 | 68 | 72 | 71 | 65 | 60 | 69 | 61 |
62 | 75 | 66 | 63 | 66 | 68 | 76 | 68 | 54 | 74 |
68 | 60 | 72 | 63 | 57 | 64 | 65 | 59 | 72 | 52 |
52 | 72 | 69 | 62 | 68 | 64 | 60 | 65 | 53 | 69 |
59 | 68 | 67 | 71 | 69 | 70 | 52 | 62 | 64 | 68 |
样本均值是an估计总体均值。这是一个精确的估计,因为样本量很大。
同样,你可以多次重复这个过程,从50个退休人员中抽取样本,并计算每个样本的平均值:
在直方图中,你可以看到这个抽样分布是正态分布的,正如中心极限定理所预测的那样。
该抽样分布的标准差为0.85年,小于小样本抽样分布的分布,也远小于总体的分布。如果你进一步增加样本量,差距会进一步缩小。
我们可以用中心极限定理公式来描述抽样分布:
µ= 65
σ = 6
n= 50
离散分布
大约10%的人是左撇子。如果将1赋值给左手性,将0赋值给右手性,则概率分布的左手性人口人类长这样:
总体平均值是左撇子的比例(0.1)。总体标准差为0.3。
假设你有一个随机样本然后问他们是不是左撇子。
0 | 0 | 0 | 1 | 0 |
样本均值是总体均值的估计值。这可能不是一个非常精确的估计,因为样本量只有5个。
想象一下,你重复这个过程10次,随机抽取5个人,并计算样本的平均值。这是一个均值的抽样分布.
0 | 0 | 0.4 | 0.2 | 0.2 | 0 | 0.4 | 0 |
如果你重复这个过程多次,分布将是这样的:
抽样分布不是正态分布因为样本容量不足以适用中心极限定理。
随着样本量的增加,抽样分布看起来越来越类似于正态分布,分布减小:
样本均值的抽样分布n= 30接近正常。当样本量进一步增加到n= 100时,抽样分布服从正态分布。
我们可以用中心极限定理公式来描述抽样分布n= 100。
µ= 0.1
σ = 0.3
n= 100
实践问题
关于中心极限定理的常见问题
- 为什么要在研究中使用样本?
-
样品都是用来推断的人口.样本更容易收集数据,因为它们实用、具有成本效益、方便且易于管理。
引用这篇Scribbr文章
如果你想引用这个来源,你可以复制和粘贴引用或点击“引用这篇Scribbr文章”按钮,自动添加到我们的免费引用生成器引用。