中心极限定理|公式，定义及例子

发布于2022年7月6日肖恩·特尼．2022年11月10日修订。

的中心极限定理说明如果你从总体中取足够大的样本，样本的均值将为正态分布，即使总体不是正态分布。

什么是中心极限定理?

中心极限定理依赖于a的概念抽样分布，即概率分布的统计对于大量的样品从一个种群中提取。

想象一个实验可以帮助你理解抽样分布:

假设你画了一个随机样本从总体中计算a统计对于样本，比如均值。
现在你随机抽取另一个相同大小的样本，然后再次计算的意思是．
重复这个过程多次，最终得到大量的均值，每个样本一个。

样本均值的分布是一个例子抽样分布。

中心极限定理说均值的抽样分布总是正态分布，只要样本量足够大。无论总体是否具有正态分布、泊松分布、二项分布或任何其他分布，均值的抽样分布都将是正态分布。

正态分布是一种对称的钟形分布，离分布中心越远，观测值越少。

中心极限定理公式

幸运的是，你不需要重复抽样一个总体来知道抽样分布的形状。的参数均值的抽样分布是由总体的参数决定的:

的的意思是抽样分布是总体的均值。

${方程*}\ \开始mu_{\酒吧{x}} = \μ\{方程*}结束$

的标准偏差抽样分布的标准差是总体的标准差除以样本容量的平方根。

${方程*}\ \开始sigma_{\酒吧{x}} = \ dfrac{\σ}{\ sqrt {n}} \{方程*}结束$

我们可以用这样的符号来描述均值的抽样分布:

$酒吧\开始{方程*}\ {X} \ sim N(\μ,\ dfrac{\σ}{\ sqrt {N}})结束\{方程*}$

地点:

X =样本均值的抽样分布
~表示“遵循分布”
N是正态分布
µ是总体的平均值
σ是总体的标准差
n是样本量

校对对你的论文有什么好处?

Scribbr编辑不仅纠正语法和拼写错误，还通过确保你的论文没有模糊的语言、多余的单词和尴尬的措辞来加强你的写作。

参见编辑示例

样本容量和中心极限定理

的样本大小（n)为每个样本从总体中抽取的观察数。所有样本的样本量都是一样的。

样本容量从两个方面影响均值的抽样分布。

1.样本大小和正态性

样本量越大，抽样分布越接近a正态分布．

当样本量较小时，均值的抽样分布有时是非正态分布。这是因为中心极限定理只在样本容量“足够大”时成立。

按照惯例，我们认为30的样本量“足够大”。

当n< 30，中心极限定理不适用。抽样分布将遵循与总体相似的分布。因此，只有总体是正态的，抽样分布才会是正态的。

当n≥30时，中心极限定理适用。抽样分布近似服从正态分布。

2.样本容量和标准差

样本量影响抽样分布的标准差。标准差是一种度量可变性或者分布的扩散(即，它有多宽或多窄)。

当n很低时，标准差较大。样本的均值有很大的分布，因为它们不是总体均值的精确估计。

当n是高的,标准偏差很低。样本的均值没有太大的差异，因为它们是对总体均值的精确估计。

中心极限定理的条件

中心极限定理指出，均值的抽样分布总是遵循a正态分布在下列条件下:

样本量为足够大的．如果样本量为n≥30。

样本是独立同分布(i.i.d)随机变量．这个条件通常满足，如果抽样是随机的．

人口分布已经有限的方差．中心极限定理不适用于方差无穷大的分布，比如柯西分布。大多数分布的方差是有限的。

中心极限定理的重要性

中心极限定理是最基本的统计定理之一。实际上，“中心极限定理”中的“中心”是指定理的重要性。

请注意

参数测试，例如t测试，方差分析,线性回归，在统计上比大多数都更有说服力非参数测试．他们的统计能力来自于基于中心极限定理的关于总体分布的假设。

中心极限定理实例

将中心极限定理应用于实际分布可以帮助你更好地理解它是如何工作的。

连续分布

假设你对美国人的退休年龄感兴趣。的人口都是退休的美国人，人口分布可能是这样的:

退休年龄如下没有多分布。大多数人在平均退休年龄(65岁)的5年内退休。然而，也有“长尾”现象，人们退休的年龄要小得多，比如50岁甚至40岁。总体的标准差是6年。

想象你拿了一个小的样本在人口中。你随机选择5个退休人员，问他们退休的年龄。

例子:中心极限定理;的样本n= 5

样本均值是an估计总体均值。这可能不是一个非常精确的估计，因为样本量只有5个。

例子:中心极限定理;小样本的均值

平均= (68 + 73 + 70 + 62 + 63)/ 5

平均= 67.2岁

假设你重复这个过程10次，取5个退休人员的样本，并计算每个样本的平均值。这是一个均值的抽样分布．

例子:中心极限定理;10个小样本的均值

60.8

57.8

62.2

68.6

67.4

67.8

68.3

65.6

66.5

62.1

如果你重复这个过程多次，样本均值的直方图将是这样的:

虽然这个抽样分布比总体更正态分布，但它仍然有一点左斜．

还要注意抽样分布的扩散小于总体的扩散。

的中心极限定理表示当样本容量足够大时，均值的抽样分布总是服从正态分布。均值的抽样分布不是正态分布因为样本容量不够大。

现在，假设你从人口中抽取一个大样本。你随机选择50个退休人员，问他们退休的年龄。

例子:中心极限定理;的样本n= 50

73	49	62	68	72	71	65	60	69	61
62	75	66	63	66	68	76	68	54	74
68	60	72	63	57	64	65	59	72	52
52	72	69	62	68	64	60	65	53	69
59	68	67	71	69	70	52	62	64	68

样本均值是an估计总体均值。这是一个精确的估计，因为样本量很大。

例子:中心极限定理;大样本的均值

平均= 64.8岁

同样，你可以多次重复这个过程，从50个退休人员中抽取样本，并计算每个样本的平均值:

在直方图中，你可以看到这个抽样分布是正态分布的，正如中心极限定理所预测的那样。

该抽样分布的标准差为0.85年，小于小样本抽样分布的分布，也远小于总体的分布。如果你进一步增加样本量，差距会进一步缩小。

我们可以用中心极限定理公式来描述抽样分布:

$\bar{X} \sim N (\mu，\dfrac{\sigma}{\sqrt{N}})$

µ= 65

σ = 6

n= 50

$\bar{X} \sim N (65，\dfrac{6}{\sqrt{50}})$

$\bar{X} \sim N (65,0.85)$

离散分布

大约10%的人是左撇子。如果将1赋值给左手性，将0赋值给右手性，则概率分布的左手性人口人类长这样:

总体平均值是左撇子的比例(0.1)。总体标准差为0.3。

假设你有一个随机样本然后问他们是不是左撇子。

例子:中心极限定理;的样本n= 5

样本均值是总体均值的估计值。这可能不是一个非常精确的估计，因为样本量只有5个。

例子:中心极限定理;小样本的均值

Mean = (0 + 0 + 0 + 1 + 0) / 5

平均值= 0.2

想象一下，你重复这个过程10次，随机抽取5个人，并计算样本的平均值。这是一个均值的抽样分布．

例子:中心极限定理;10个小样本的均值

0.4

0.2

0.4

如果你重复这个过程多次，分布将是这样的:

抽样分布不是正态分布因为样本容量不足以适用中心极限定理。

随着样本量的增加，抽样分布看起来越来越类似于正态分布，分布减小:

样本均值的抽样分布n= 30接近正常。当样本量进一步增加到n= 100时，抽样分布服从正态分布。

我们可以用中心极限定理公式来描述抽样分布n= 100。

$\bar{X} \sim N (\mu，\dfrac{\sigma}{\sqrt{N}})$

µ= 0.1

σ = 0.3

n= 100

$\bar{X} \sim N (0.1，\dfrac{0.3}{\sqrt{100}})$

$\bar{X} \sim N (0.1,0.03)$

实践问题

关于中心极限定理的常见问题

什么是正态分布?: 在一个正态分布，数据对称分布，无歪斜。大多数值都聚集在一个中心区域周围，当值离中心越远时，值就越小。

的集中趋势的度量(均值、众数和中位数)在正态分布中完全相同。
三种类型的偏度是什么?: 这三种类型偏态是:

右斜(也称为正偏）．右偏分布的峰值右侧比左侧更长。

左斜(也称为负倾斜)。左偏分布的峰值左侧比右侧更长。

零倾斜。它是对称的，左右两边是镜像。
为什么要在研究中使用样本?: 样品都是用来推断的人口．样本更容易收集数据，因为它们实用、具有成本效益、方便且易于管理。

引用这篇Scribbr文章

如果你想引用这个来源，你可以复制和粘贴引用或点击“引用这篇Scribbr文章”按钮，自动添加到我们的免费引用生成器引用。

特尼，S.(2022年11月10日)。中心极限定理|公式，定义及例子。Scribbr。检索于2022年12月14日，来自//www.charpingshvac.com/statistics/central-limit-theorem/

引用本文

这篇文章有用吗?

你已经投票了。谢谢:-) 你的投票被保存了:-) 处理你的投票…

肖恩·特尼

在他的硕士和博士期间，Shaun学习了如何将科学和统计方法应用到他的生态学研究中。现在，他喜欢教学生如何为他们自己的论文和研究项目收集和分析数据。

让语言专家提高你的写作水平

在10分钟内做一次免费的抄袭检查

免费生成准确的引用

让语言专家提高你的写作水平

在10分钟内做一次免费的抄袭检查

免费生成准确的引用

中心极限定理|公式，定义及例子

目录

什么是中心极限定理?