正态分布|例子,公式,用法
在正态分布中,数据是对称分布的斜.在图形上绘制时,数据遵循钟形,大多数值聚集在a附近中部地区当它们离中心越远时逐渐变小。
正态分布因其形状不同,也被称为高斯分布或钟形曲线。
为什么正态分布很重要?
自然科学和社会科学中的各种变量都是正态分布或近似正态分布。身高、出生体重、阅读能力、工作满意度或SAT分数只是这些变量的几个例子。
因为正态分布变量很常见,很多统计测试是为正态分布的人群设计的。
理解了正态分布的性质就意味着你可以使用推论统计比较不同的群体,并使用样本对总体进行估计。
正态分布的性质是什么?
正态分布具有很容易在图表中发现的关键特征:
均值是位置参数,标准差是尺度参数。
均值决定了曲线峰值的居中位置。增加均值使曲线向右移动,而减少均值使曲线向左移动。
标准差会拉伸或挤压曲线。标准差小,曲线窄,标准差大,曲线宽。
经验法则
的经验法则或68-95-99.7规则,告诉你你的大部分值在正态分布中的位置:
- 约68%的数值与平均值相差1个标准偏差。
- 约95%的数值与平均值相差2个标准差。
- 大约99.7%的数值与平均值相差3个标准差。
经验规则是一种快速获取数据概览并检查不遵循此模式的任何异常值或极端值的方法。
如果来自小样本的数据不密切遵循这种模式,那么其他分布,如t分布也许更合适。一旦确定了变量的分布,就可以应用适当的统计测试。
中心极限定理
的中心极限定理是统计学中正态分布工作的基础。
在研究中,为了得到一个好的想法人口意思是,理想情况下你会从多个随机抽样在人群中。一个均值的抽样分布是这些不同样本的均值的分布。
中心极限定理表明:
- 大数定律:当你增加样本容量(或样本数量)时,样本均值将接近总体均值。
- 对于多个大样本,均值的抽样分布是正态分布,即使原始变量不是正态分布。
参数统计检验通常假设样本来自正态分布总体,但中心极限定理意味着当样本足够大时,这个假设就不需要满足了。
你可以使用参数检验从任何类型的分布的总体大样本,只要其他重要假设得到满足。通常认为样本量在30个或以上是大的。
对于小样本,正态性假设很重要,因为均值的抽样分布是未知的。为了得到准确的结果,在使用小样本参数检验之前,必须确保总体是正态分布的。
正态曲线的公式
一旦你有了正态分布的均值和标准差,你就可以用函数来拟合数据的正态曲线概率密度函数.
在概率密度函数中,曲线下的面积表示概率。正态分布是a概率分布,所以曲线下的总面积总是1或100%。
正态概率密度函数的公式看起来相当复杂。但要使用它,你只需要知道总体均值和标准差。
对于任意值x时,您可以将均值和标准差代入公式,以求得变量取该值的概率密度x.
正态概率密度公式 | 解释 |
---|---|
|
什么是标准正态分布?
的标准正态分布,也叫z分布,是均值为0,标准差为1的特殊正态分布。
每个正态分布都是标准正态分布的一个版本它被拉伸或挤压并水平向左或向右移动。
而来自正态分布的个别观测被称为x,它们被称为z在z分布。每一个正态分布都可以转化为标准正态分布z分数。
Z-分数告诉你每个值距离平均值有多少个标准差。
你只需要知道分布的均值和标准差就能得到z-一个值的得分。
Z得分公式 | 解释 |
---|---|
|
我们将正态分布转换为标准正态分布,原因如下:
- 找出在一个分布中高于或低于给定值的观测的概率。
- 求样本均值与已知总体均值显著不同的概率。
- 比较在不同分布上的得分,使用不同的均值和标准差。
使用z分布
每一个z-score与概率相关,或者p价值,它告诉你低于这个值的概率z分数发生。如果你把一个单独的值转换成z-score,然后你可以找到在该值之前的所有值以正态分布出现的概率。
分布均值是1150,标准差是150。的z-score表示1380离均值有多少个标准差。
公式 | 计算 |
---|---|
|
|
对于一个z-得分为1.53p-value为0.937。这是SAT分数为1380或以下的概率(93.7%),它是曲线左侧阴影区域下的面积。
为了找到阴影面积,你从1中减去0.937,这是曲线下的总面积。
的概率x> 1380 = 1 - 0.937 =0.063
这意味着在你的样本中,可能只有6.3%的SAT分数超过1380分。
关于正态分布的常见问题
引用这篇Scribbr文章
如果你想引用这个来源,你可以复制和粘贴引用或点击“引用这篇Scribbr文章”按钮,自动添加到我们的免费引用生成器引用。