统计检验的主要假设是什么?

统计测试通常假设:

数据是正态分布的
被比较的两组有相似之处方差
数据是独立的

如果您的数据不符合这些假设，您可能仍然可以使用非参数统计检验，它们的要求更少，但推论也更弱。

常见问题:统计

随着自由度的增加，Student 's t分布的形状会发生什么变化?: 随着自由度增加,学生的t分布变得更少尖峰的，意味着出现极端值的概率降低。分布变得越来越像a标准正态分布．
峰度的三种类型是什么?: 这三个类别峰度是:

正态峰：多余峰度为0。正态分布常峰态的。

低峰态：一个负的过剩峰度。扁石分布是薄尾分布，这意味着它们的数量很少离群值．

峭度：一个正的过剩峰度。细峰分布是肥尾分布，这意味着它们有许多异常值。
这两种概率分布是什么?: 概率分布属于两大类:离散概率分布而且连续概率分布．在每个类别中，都有许多类型的概率分布。
相对频率和概率之间的区别是什么?: 概率是相对频率经过无数次的试验。

例如，一枚硬币正面朝上的概率是。5，这意味着如果你将硬币投掷无限次，它有一半的概率是正面朝上的。

因为做一件事无限次是不可能的，所以相对频率常被用来估计概率。如果你抛一枚硬币1000次，得到507个正面，相对频率。507是一个很好的概率估计。
什么类型的数据可以用频率分布来描述?: 分类变量可以用频率分布来描述。定量变量也可以用频率分布来描述，但首先它们必须是分组为间隔类．
如何判断频率分布是否呈现正态分布?: 直方图是一种有效的方法来判断是否频率分布似乎有一个正态分布．

画一个柱状图，看看柱状图的形状。如果条形图大致呈对称的钟形或山形，如下图所示，则分布近似为正态分布。
如何在Excel中找到卡方临界值?: 您可以使用CHISQ.INV.RT ()函数来查找卡方Excel中的临界值。

例如，计算测试的卡方临界值df= 22和α = .05，单击任何空白单元格并键入:

= CHISQ.INV.RT (0.05, 22)
如何找到R中的卡方临界值?: 您可以使用qchisq ()函数来查找卡方R中的临界值。

例如，计算测试的卡方临界值df= 22， α = .05:

Qchisq (p = .05, df = 22，较低。tail = FALSE)
如何在R中进行卡方独立性检验?: 您可以使用chisq.test ()函数执行独立性卡方检验给出列联表作为x参数的矩阵。例如:

M =矩阵(数据= c(89, 84, 86, 9, 8, 24)， nrow = 3, ncol = 2)

chisq。te年代t（x= m)
如何在Excel中进行独立性卡方检验?: 您可以使用CHISQ.TEST ()函数执行独立性卡方检验在Excel中。它需要两个参数，CHISQ。TEST(observed_range, expected_range)，并返回p价值。
如何对基因杂交进行卡方拟合优度检验?: 卡方拟合优度检验通常用于遗传学。一个常见的应用是检查两个基因是否相连(即，如果分类是独立的)。当基因相连时，一个基因的遗传等位基因会影响另一个基因的遗传等位基因。

假设你想知道豌豆质地(R =圆形，R =褶皱)和颜色(Y =黄色，Y =绿色)的基因是否相关。在两个杂合子(RY / RY)豌豆植物。你在实验中测试的假设是:

零假设（H₀):后代种群遗传所有可能的基因型组合的概率相等。

这表明这些基因是不相关的。

备择假设（H_一个:后代的数量不遗传所有可能的基因型组合的概率相等。

这表明这些基因是相互关联的。

你观察100颗豌豆:

78颗圆形和黄色的豌豆

6颗圆形的绿色豌豆

4颗皱巴巴的黄豌豆

12颗皱巴巴的青豆

第一步:计算预期频率

为了计算期望值，你可以做一个庞尼特方格。如果这两个基因没有连锁，那么每个基因型组合的概率是相等的。

变化中 变化中 变化中 变化中

变化中 RRYY RrYy RRYy RrYY

变化中 RrYy rryy Rryy rrYy

变化中 RRYy Rryy RRyy RrYy

变化中 RrYY rrYy RrYy rrYY

因此，预期的表型比例为9个圆形和黄色:3个圆形和绿色:3个皱褶和黄色:1个皱褶和绿色。

由此，你可以计算出100个豌豆的预期表型频率:

表型 观察到的 预期

圆形和黄色 78 100 * (9/16) = 56.25

又圆又绿 6 100 * (3/16) = 18.75

皱皱发黄 4 100 * (3/16) = 18.75

皱巴巴的绿色 12 100 * (1/16) = 6.21

第二步:计算卡方

表型 观察到的 预期 O−E （O−E）2 （O−E）2/ E

圆形和黄色 78 56.25 21.75 473.06 8.41

又圆又绿 6 18.75 −12.75 162.56 8.67

皱皱发黄 4 18.75 −14.75 217.56 11.6

皱巴巴的绿色 12 6.21 5.79 33.52 5.4

Χ²= 8.41 + 8.67 + 11.6 + 5.4 = 34.08

步骤3:找到临界卡方值

因为有四组(圆形和黄色，圆形和绿色，褶皱和黄色，褶皱和绿色)，所以有三组自由度．

对于α = .05和的显著性检验df= 3，则Χ²临界值为7.82。

步骤4:将卡方值与临界值进行比较

Χ²= 34.08

临界值= 7.82

的Χ²值大于临界值．

第五步:决定是否拒绝原假设

的Χ²值大于临界值，所以我们拒绝零假设，即后代群体遗传所有可能的基因型组合的概率相等。观察到的基因型频率与预期的基因型频率之间存在显著差异(p< . 05)。

这些数据支持了另一种假设，即后代遗传所有可能的基因型组合的概率并不相等，这表明这些基因是相连的
如何在R中进行卡方拟合优度检验?: 您可以使用chisq.test ()函数执行卡方拟合优度检验在“x”参数中给出观测值，在“p”参数中给出期望值，并设置“rescale”。P "变为真。例如:

chisq。te年代t（x= c(22,30,23), p = c(25,25,25), rescale.p = TRUE)
如何在Excel中进行卡方拟合优度检验?: 您可以使用CHISQ.TEST ()函数执行卡方拟合优度检验在Excel中。它需要两个参数，CHISQ。TEST(observed_range, expected_range)，并返回p价值．
卡方检验和相关性的区别是什么?: 这两个相关性而且卡方测试可以测试两个变量之间的关系。但是，当您有两个时，则使用相关性定量当你有两个分类变量时，使用变量和独立卡方检验。
卡方检验和t检验的区别是什么?: 这两个卡方测试而且t测试可以测试两组之间的差异。然而,一个t当你有一个因变量和一个独立的分类变量(分为两组)。一个独立性卡方检验当有两个分类变量时使用。
卡方检验有哪两种主要类型?: 两个主要的卡方测试是卡方拟合优度检验和独立性卡方检验．
卡方分布有什么性质?: 一个卡方分布是一个连续概率分布．卡方分布的形状取决于它自由度，k．卡方分布的均值等于其自由度(k)及方差是2k．范围是0到∞。
当自由度(k)增加时，卡方分布的形状会发生什么变化?: 作为自由度(k)增加，卡方分布从一个向下的曲线变成了一个驼峰形状。随着自由度的进一步增加，驼峰从强右偏态到接近正常。
如何找到概率分布的四分位数?: 要找到四分位数对于概率分布，你可以使用分布的分位数函数。
如何找到R中的四分位数?: 您可以使用quantile()函数来查找四分位数如果你的数据被称为“data”，那么“quantile(data, prob=c(.25，.5，.75)， type=1)”将返回三个四分位数。
如何在Excel中找到四分位数?: 您可以使用QUARTILE()函数来查找四分位数在Excel中。如果您的数据在列A中，则单击任何空白单元格，为第一个四分位数键入“=QUARTILE(A:A,1)”，为第二个四分位数键入“=QUARTILE(A:A,2)”，为第三个四分位数键入“=QUARTILE(A:A,3)”。
如何在Excel中计算皮尔逊相关系数?: 您可以使用皮尔森()函数来计算皮尔逊相关系数在Excel中。如果变量位于列A和列B中，则单击任何空白单元格并键入“PEARSON(A:A,B:B)”。

没有函数可以直接检验相关性的显著性。
如何计算R中的皮尔逊相关系数?: 您可以使用和()函数来计算皮尔逊相关系数要测试相关性的显著性，可以使用cor.test ()函数。
什么时候用皮尔逊相关系数?: 当(1)关系是线性的，(2)两个变量都是定量的，(3)正态分布，(4)没有异常值时，您应该使用皮尔逊相关系数。
皮尔森相关系数的定义是什么?: 的皮尔逊相关系数(r）是测量线性相关性最常用的方法。它是一个介于-1和1之间的数字，用来衡量两个变量之间关系的强度和方向。
正态分布和泊松分布的区别是什么?: 该表总结了两者之间最重要的区别正态分布而且泊松分布：

特征正常的泊松

连续或离散连续离散

参数均值(µ)和标准差(σ) λ(λ)

形状钟形取决于λ

对称对称的不对称(右偏态)。随着λ的增大，不对称性减小。

范围 −∞到∞ 0到∞

当的意思是的泊松分布较大(>10)时，可以近似为正态分布。
在泊松分布公式中λ是什么意思?: 在泊松分布公式，λ是的意思是在给定的时间或空间间隔内的事件数。例如，λ = 0.748洪水/年。
泊松分布公式中的e是什么意思?: 的e在泊松分布公式代表数字2.718。这个数叫做欧拉常数。你可以简单地代入e当你在计算泊松概率时。欧拉常数是一个非常有用的数字，在微积分中尤其重要。
三种类型的偏度是什么?: 这三种类型偏态是:

右斜(也称为正偏）．右偏分布的峰值右侧比左侧更长。

左斜(也称为负倾斜)。左偏分布的峰值左侧比右侧更长。

零倾斜。它是对称的，左右两边是镜像。
偏度和峰度的区别是什么?: 偏态而且峰度两者都是衡量分布形状的重要指标。

偏态测量分布的不对称性。

峰度测量分布尾部相对于分布尾部的重量正态分布．
研究假设和统计假设的区别是什么?: 一个研究假设是你对研究问题的建议答案。研究假设通常包括一种解释("x影响y因为…”)。

另一方面，统计假设是关于总体参数的数学陈述。统计假设总是成对出现的零假设和替代假设．在一个精心设计的研究，统计假设与研究假设在逻辑上对应。
用什么符号来表示可供选择的假设?: 的备择假设常缩写为H_一个或H₁．当用数学符号写备择假设时，它总是包含一个不等式符号(通常≠，但有时<或>)。
用什么符号来表示零假设?: 的零假设常缩写为H₀．当零假设用数学符号来写时，它总是包含一个相等符号(通常是=，但有时≥或≤)。
为什么t分布也被称为学生t分布?: 的t分布是由统计学家威廉·西利·戈塞特以“学生”的笔名首次描述的。
如何用t的临界值计算均值的置信区间?: 计算a置信区间的的意思是的临界值t，按以下四个步骤进行:

选择显著性水平基于你想要的自信程度。最常见的置信水平是95%，这对应于双尾的α = .05t表格．

求的临界值t在双尾部t表格

的临界值乘以t通过年代/√n．

将此值与均值相加以计算置信区间的上限，并从均值中减去此值以计算下限。
如何用临界值t检验假设?: 来检验假设的临界值t，按以下四个步骤进行:

计算t值为您的样本。

求的临界值t在t表格．

确定是否(绝对)t值大于的临界值t．

如果样本是t值大于的临界值t．否则，不要拒绝零假设．
如何在Excel中求t的临界值?: 您可以使用T.INV ()函数求的临界值t用于Excel中的单侧测试，您可以使用T.INV.2T ()函数用于双尾测试。

示例:计算的临界值t在Excel中
计算…的临界值t对于双尾检验df= 29和α = .05，单击任何空白单元格并键入:

0.05 = T.INV.2T (29)
如何求出t在R中的临界值?: 您可以使用qt ()函数求的临界值t函数给出了的临界值t对于单侧检验。如果你想知道的临界值t对于双尾测试，将显著性水平由两个。

示例:计算的临界值t在R
计算…的临界值t对于双尾检验df= 29， α = .05:

qt (p= .025,df= 29)
如何在Excel中计算决定系数(R²)?: 可以使用RSQ()函数进行计算R²在Excel中。如果你的因变量在A列中，而你的自变量在B列中，然后单击任何空白单元格并键入“RSQ(A:A,B:B)”。
如何计算R中的决定系数(R²)?: 可以使用summary()函数查看R²你会在输出的底部附近看到“r平方”。
决定系数(R²)的公式是什么?: 有两个公式可以用来计算决定系数(R²)的简单线性回归．

公式1: $R ^ 2 = (R) ^ 2$

公式2: $R ^ 2 = 1 - \ dfrac {\ textup {RSS}} {\ textup {TSS}}$
决定系数(R²)的定义是什么?: 的决定系数(R²)是一个介于0和1之间的数字，用于衡量统计模型预测结果的好坏。你可以把R²解释为因变量这是由统计模型预测的。
丢失的数据类型是什么?: 主要有三种类型缺失的数据．

完全随机缺失(MCAR)数据是随机分布在各个变量之间且与其他变量无关的数据变量．

随机缺失(MAR)数据不是随机分布的，而是由其他观测变量解释的。

非随机缺失(MNAR)数据与观测值有系统差异。
如何处理丢失的数据?: 整理你的缺失的数据，您的选择通常包括接受、删除或重新创建丢失的数据。

验收:数据保持原样

逐级或成对删除:从分析中删除丢失数据的所有案例(参与者)

归责:您可以使用其他数据来填充缺失的数据
为什么缺失的数据很重要?: 缺失的数据很重要，因为根据类型的不同，它们有时会影响你的结果。这意味着你的结果可能不是可概括的在你的研究之外，因为你的数据来自典型的样本．
什么是缺失的数据?: 缺失的数据，或丢失值，当您没有存储数据时就会发生变量或参与者。

在任何数据集中，通常都有一些缺失的数据。在定量研究时，缺失的值在电子表格中显示为空白单元格。
如何计算几何均值?: 有两个步骤来计算几何平均数：

把所有的值相乘得到它们的乘积。

找到n乘积的根(n是值的数目)。

在计算几何平均值之前，请注意:

几何平均值只能求正值。

如果数据集中的任何值为零，则几何平均值为零。
算术平均数和几何平均数的区别是什么?: 的算术平均值最常用的是哪种的意思是通常简称为“均值”。算术平均数是基于加和除的数值几何平均数相乘并找到值的根。

尽管几何平均值不太常见集中趋势的度量，它比百分比变化和正向倾斜数据的算术平均值更准确。金融指数和人口增长率通常报告几何平均值。
几何均值是多少?: 的几何平均数是将所有值相乘并求出该数的根的平均值。对于包含n数字，你会发现n它们乘积的根。
什么是异常值?: 离群值是与数据集中大多数值不同的极值。您可以在数据集的极端端找到异常值。
什么时候我应该从我的数据集中删除一个异常值?: 最好去掉离群值只有当你有一个合理的理由这样做的时候。

一些异常值代表的自然变化人口，它们应该保持在您的数据集中。这些被称为真正的异常值。

其他异常值是有问题的，应该删除，因为它们代表测量误差，数据输入或处理错误，或采样不当。
如何在数据中找到异常值?: 您可以从四种主要的检测方法中选择离群值：

将值从低到高排序，并检查最小值和最大值

用箱形图可视化您的数据并寻找异常值

使用四分位范围为您的数据创建围栏

使用统计程序来确定极值
为什么离群值很重要?: 离群值会对你的人生产生重大影响吗统计分析并歪曲任何的结果假设检验如果它们不准确。

这些极端的价值观会影响你的统计能力同样，即使有真正的影响，也很难检测到。
相关系数是否等于直线的斜率?: 不，直线的陡度或斜率与相关系数价值。相关系数只告诉你数据在直线上的拟合程度，所以具有相同相关系数的两个数据集可能有非常不同的斜率。

为了求出直线的斜率，你需要执行a回归分析．
相关系数的符号和值告诉你什么?: 相关系数总是在-1和1之间。

系数的符号告诉你关系的方向:正值意味着变量在同一个方向上一起变化，而负值意味着它们在相反的方向上一起变化。

一个数的绝对值等于不带符号的数。相关系数的绝对值告诉你相关性的大小:绝对值越大，相关性越强。
皮尔逊相关系数的假设是什么?: 如果要使用这些数据，则必须满足这些假设皮尔森的r：

这两个变量都在一个区间或比率上测量水平

下面是两个变量的数据正态分布

您的数据没有异常值

你的数据来自a随机或有代表性的样本

你期望这两个变量之间有线性关系
什么是相关系数?: 一个相关系数是描述变量之间关系的强度和方向的单个数字。

不同类型的相关系数可能适用于您的数据测量水平而且分布．的皮尔逊积矩相关系数r）通常用于评估两个定量变量之间的线性关系。
如何提高统计能力?: 提高功率的方法有很多种:

通过操纵您的独立变量更强烈,

增加样本量，

增加了显著性水平(α),

通过提高测量设备和程序的精度和准确度来减少测量误差，

使用单侧检验而不是双侧检验t测试而且z测试。
什么是权力分析?: 功率分析是一种计算，可以帮助您确定研究的最小样本量。它由四个主要部分组成。如果你知道或估计了其中任何三个分量，你就可以计算第四个分量。

统计能力:测试检测到一定大小的影响(如果有的话)的可能性，通常设置为80%或更高。

样本大小:在给定功率水平下观察一定大小的效应所需的最小观测次数。

显著性水平(α):拒绝一个你愿意接受的真零假设的最大风险，通常设置为5%。

预期影响的大小:一种表达你的研究预期结果大小的标准化方式，通常基于类似的研究或初步研究。
什么是零假设和替代假设?: 零假设和替代假设用于统计假设检验．的零假设的测试总是预测变量之间没有影响或没有关系，而备择假设陈述你对影响或关系的研究预测。
什么是统计分析?: 统计分析分析的主要方法是什么定量研究数据．它使用概率和模型来测试对一个事件的预测人口从样本数据。
你如何降低犯第二类错误的风险?: 风险第二类错误是负相关的统计能力测试的。威力是指当存在真实效果时，一项测试能正确检测出这种效果的程度。

为了(间接地)降低第二类错误的风险，您可以增加样本大小或者是显著性水平提高统计能力。
你如何降低犯第一类错误的风险?: 风险第一类错误是显著性水平(或阿尔法)你选择的。这是您在研究开始时设置的值，用于评估获得结果的统计概率(p值）.

显著性水平通常设置为0.05或5%。这意味着你的结果只有5%的机会发生，或更少，如果零假设是真的。

为了降低第一类错误的概率，可以设置一个较低的显著性水平。
第一类和第二类错误是什么?: 在统计学中，第一类错误意味着拒绝零假设而第二类错误是指当零假设为假时，不能拒绝零假设。
什么是统计能力?: 在统计学中，权力指的是发生事件的可能性假设检验如果真的有效果，就去检测。统计上强大的测试更有可能拒绝假阴性(第二类错误)。

如果你在学习中没有保证足够的能量，你可能无法检测到统计上显著结果，即使它有实际意义。你的研究可能无法回答你的研究问题。
统计学意义和实际意义的区别是什么?: 而统计显著性表明在一项研究中存在一种效应，现实意义表明这种效应大到足以在现实世界中有意义。

统计学意义用p值而现实意义则由影响的大小．
如何计算效应量?: 有几十种方法影响的大小．最常见的效应量是科恩效应量d和皮尔森的r．科恩的d衡量两组之间差异的大小，而皮尔逊的r衡量两个人关系的强弱变量．
什么是效应量?: 影响的大小告诉你变量之间的关系或组之间的差异有多大意义。

效应量大意味着研究结果具有实际意义，而效应量小意味着实际应用有限。
点估计和区间估计的区别是什么?: 使用描述性的而且推论统计，你可以做出两种类型的估计人口:点估计和区间估计。

一个点估计是一个单一值的估计参数．例如，样本均值是总体均值的点估计。

一个区间估计给出期望参数所在的值范围。一个置信区间是最常见的区间估计类型。

这两种类型的估计对于收集参数可能所在位置的清晰概念都很重要。
标准误差和标准差的区别是什么?: 标准错误而且标准偏差都是可变性的测量．标准差反映样本内的可变性，而标准误差估计总体样本间的可变性。
什么是标准误差?: 的标准误差的意思是，或简单地标准错误，表示不同的总体均值可能来自样本均值。它告诉你，如果你从单一人口中使用新的样本重复一项研究，样本均值会有多大变化。
如何知道一个数字是参数还是统计数据?: 来判断一个给定的数字是否是a参数或统计值，问自己以下问题:

这个数字描述的是一个完整的整体吗人口每个人都能找到的地方数据收集?

是否有可能在合理的时间范围内从人口的每个成员收集到这个数字的数据?

如果两个问题的答案都是肯定的，那么这个数字很可能是一个参数。对于小种群，可以从整个种群中收集数据，并以参数进行汇总。

如果两个问题的答案都是否定的，那么这个数字更有可能是一个统计数字。
有哪些不同类型的手段?: 的算术平均值是最常用的平均数。通常简称为均值或平均值。但根据你的研究目的，你可以计算其他一些类型的方法:

加权平均数:有些值比其他值对平均值的贡献更大。

几何平均数：价值是相乘而不是相加。

调和平均数:使用值的倒数来代替值本身。
如何求均值?: 你可以求均值，或数据集的平均值，分为两个简单步骤:

把这些值加起来，求它们的和。

将和除以数据集中值的数目。

不管你是在处理样本或总体数据或正数或负数。
什么时候应该使用中位数?: 的中位数是最有效的测量方法吗集中趋势对于偏态分布或有异常值的分布。例如，中位数经常被用来衡量收入分配的集中趋势，而收入分配通常是高度倾斜的。

因为中位数只使用一个或两个值，所以它不受极端异常值或分数非对称分布的影响。相比之下，的意思是而且模式可以在倾斜分布中变化。
如何求中位数?: 来求中位数，首先订购你的数据。然后计算中间位置n，即数据集中的值的数目。

如果n是奇数，中位数在这个位置 $\ dfrac {(n + 1)} {2}$ ．

如果n是偶数，中位数是的意思是位置上的值 $\ dfrac {n} {2}$ 而且 $(\ dfrac {n} {2}) + 1$ ．
可以有多个模式吗?: 一个数据集通常可以没有模态、一个模态或多个模态——这完全取决于有多少不同的值重复频率最高。

你的数据可以是:

没有任何模式

单模态，只有一个模式，

双峰，有两种模式，

三模态，有三模态，或者

多模式，具有四种或更多模式。
如何找到模态?: 来找到模态：

如果您的数据是数值或定量的，请将值从低到高排序。

如果是分类的，按组对值进行排序。

然后，您只需要确定最常出现的值。
什么时候应该使用四分位范围?: 的四分位范围最好的衡量标准是可变性对于有异常值的倾斜分布或数据集。因为它是基于分布的中间部分的值，所以它不太可能受到离群值．
计算四分位极差的两种主要方法是什么?: 两种最常用的计算方法四分位范围是排他性和包容性的方法。

排他性方法在识别Q1和Q3时排除中位数，而包容性方法在识别四分位数时将中位数作为数据集中的一个值。

对于每一种方法，你都需要不同的步骤来找到中位数，Q1和Q3，这取决于你的样本容量是偶数还是奇数。排他性方法最适用于偶数样本量，而包容性方法通常用于奇数样本量。
这个范围和四分位范围的区别是什么?: 而范围给出了整个数据集的分布四分位范围给出数据集中间一半的分布。
什么是同方差?: 同方差，或方差的同质性，是一种相等或相似的假设方差在不同的组中进行比较。

这是参数化的一个重要假设统计测试因为他们对任何不同都很敏感。样本中不均匀的方差会导致有偏和倾斜的测试结果。
统计学中方差的作用是什么?: 统计测试例如方差测试或方差分析使用示例方差评估人群的群体差异。他们使用样本的方差来评估它们所来自的群体之间是否存在显著差异。
标准差和方差的区别是什么?: 方差是均值的平方偏差，而标准偏差是这个数的平方根。两项指标都反映了可变性在分布中，但它们的单位不同:

标准偏差以与原始值相同的单位表示(例如，分钟或米)。

方差用更大的单位表示(例如，米的平方)。

虽然方差的单位很难直观地理解，但方差在统计测试．
经验法则是什么?: 经验法则，或者68-95-99.7法则，告诉你a的大部分值在哪里正态分布：

大约68%的数值都在1以内标准偏差均值的。

约95%的数值与平均值相差2个标准差。

约99.7%的数值与平均值相差3个标准差。

经验规则是一种快速获取数据概览并检查不遵循此模式的任何异常值或极端值的方法。
什么是正态分布?: 在一个正态分布，数据对称分布，无歪斜。大多数值都聚集在一个中心区域周围，当值离中心越远时，值就越小。

的集中趋势的度量(均值、众数和中位数)在正态分布中完全相同。
标准差告诉我们什么?: 的标准偏差平均是多少可变性在你的数据集中。它平均告诉你，每个分数离的意思是．

在正态分布中，高标准偏差意味着值通常远离平均值，而低标准偏差表明值聚集在平均值附近。
范围可以是负数吗?: 不。因为距离公式从最高的数字减去最低的数字，范围总是零或一个正数。
统计学的范围是什么?: 在统计学上，范围是分布中从最低值到最高值的数据分布。这是最简单的测量方法可变性．
集中倾向和变异性的区别是什么?: 而集中趋势告诉你大部分数据点在哪里，可变性总结你的观点彼此之间的差距。

数据集可以具有相同的集中趋势，但不同水平的可变性或反之亦然．它们一起为您提供了数据的完整图像。
四种主要的可变性测量方法是什么?: 可变性最常用的测量方法是什么描述性统计：

范围：最高值和最低值之间的差值

四分位范围：分布的中间一半的范围

标准偏差：平均距离的意思是

方差：距离均值的平方的平均值
什么是可变性?: 可变性告诉您点彼此之间以及与分布或数据集的中心之间的距离。

变异性也被称为扩散、分散或分散。
区间数据和比值数据的区别是什么?: 而时间间隔而且比数据可以对两者进行分类、排序，并且相邻值之间具有相等的间距，只有比率尺度具有真正的零。

例如，摄氏度或华氏度的温度是间隔刻度，因为0不是可能的最低温度。在开尔文标度(一种比率标度)中，零表示完全缺乏热能。
什么是临界值?: 的值检验统计量定义的上界和下界置信区间，或定义的阈值统计显著性在统计测试中。它描述了你必须离分布的均值有多远才能覆盖数据中的总变异量(即90%，95%，99%)。

如果您正在构建一个95%置信区间，并使用统计显著性阈值为p= 0.05，则两种情况下的临界值是相同的。
t分布和标准正态分布的区别是什么?: 的t分布对分布尾部的观测结果的概率大于标准正态分布(又名z分布)。

这样，t-分布比标准正态分布更保守:达到相同的置信度或统计显著性，你将需要包括更广泛的数据。
什么是t分数?: 一个t-score(又名:得分t的均值的标准差数)t分布．

的t-score是检验统计量中使用的t测试而且回归测试。它也可以用来描述当数据遵循a时，观察值离均值有多远t分布。
t分布是什么?: 的t分布是一种描述一组观测结果的方法吗的意思是，其余的观测组成了两边的尾巴。这是一种正态分布用于较小的样本量，其中方差在数据上是未知的。

的t分布在图上形成钟形曲线。它可以用均值和标准偏差．
序数变量是分类变量还是定量变量?: 在统计数据,序数而且名义上的变量都被考虑分类变量．

尽管序数数据有时可以是数值的，但并不是所有的数学运算都可以对它们执行。
什么是序数数据?: 顺序数据具有两个特点:

数据可以在一个变量内划分为不同的类别。

这些类别有一个自然的排名顺序。

然而，与间隔数据不同，类别之间的距离是不均匀的或未知的。
标称数据和序号数据的区别是什么?: 名义和序数是四种中的两种测量水平．标称液位数据只能保密，而序数级数据可以分类和排序。
什么是名义数据?: 名义上的数据是可以在变量中标记或分类为互斥类别的数据。这些类别不能以有意义的方式进行排序。

例如，对于首选交通方式的名义变量，您可以有汽车、公共汽车、火车、有轨电车或自行车的类别。
如果置信区间为0，这意味着什么?: 如果你的置信区间如果两组之间的差异为零，这意味着如果你再次进行实验，你很有可能发现两组之间没有差异。

如果你的置信区间为相关或回归包括零，这意味着如果你再次运行你的实验，很有可能在你的数据中发现没有相关性。

在这两种情况下，你也会感到兴奋p价值当您运行统计测试时，意味着您的结果可能出现在零假设变量之间没有关系组之间没有区别。
如果我的数据不是正态分布，我如何计算置信区间?: 如果你想计算a置信区间围绕着数据的平均值，那是不可能的正态分布，你有两个选择:

找到一个与数据形状匹配的分布，并使用该分布来计算置信区间。

对数据进行转换，使其符合正态分布，然后为转换后的数据找到置信区间。
什么是标准正态分布?: 的标准正态分布，也叫z-分布，是一种特殊的正态分布在哪里的意思是为0，而标准偏差是1。

任何正态分布都可以转化为标准正态分布z分数。在一个z分布,z-分数告诉你每个值距离平均值有多少个标准差。
什么是z分数和t分数?: 的z分数和t分数(又名z价值和t-value)显示数量标准差远离的意思是的分布，假设你的数据遵循az-distribution或at分布．

这些分数用于统计测试为了显示你的统计估计距离预测分布的平均值有多远。如果您的测试产生一个z-得分为2.5，这意味着您的估计值与预测平均值相差2.5个标准差。

估计的预测平均值和分布由零假设你所使用的统计测试。你的估计与预测均值的标准差越远，你的估计就越不可能发生在零假设．
如何计算置信区间?: 计算置信区间，你需要知道:

也就是你要建立置信区间的点估计

的临界值检验统计量

的标准偏差样本的

的样本大小

然后，您可以将这些组件插入与数据对应的置信区间公式中。该公式取决于估计的类型(例如平均值或比例)和数据的分布。
置信区间和置信水平之间的区别是什么?: 的置信水平是如果您再次运行实验或以相同方式重新对总体进行采样，您期望接近相同估计值的次数百分比。

的置信区间由您期望在给定置信水平下找到的估计的上界和下界组成。

例如，如果你根据婴儿随机样本估计每年出生的女婴平均比例的95%置信区间，你可能会发现上界为0.56，下界为0.48。这些是置信区间的上界和下界。置信水平为95%。
集中使用倾向的最佳测量方法是什么?: 的的意思是最常用的衡量标准是集中趋势因为它使用数据集中的所有值来给你一个平均值。

对于来自倾斜分布的数据，使用中位数比平均值好，因为它不受超大值的影响。

的模式这是你唯一可以用来衡量的吗名义上的或者无法排序的分类数据。
我可以使用哪些集中趋势的度量方法?: 的集中趋势的度量你可以使用取决于测量水平你的数据。

对于一个名义上的级别，只能使用模式找到最频繁的值。

对于一个序数级别或排名数据，也可以使用中位数在数据集中找到值。

为时间间隔或比级别，除了众数和中位数之外，还可以使用的意思是求平均值。
集中趋势的测量方法是什么?: 集中趋势的度量帮助您找到数据集的中间值或平均值。

集中趋势的3种最常见的测量方法是平均值、中位数和众数。

的模式是最常见的值。

的中位数是有序数据集中的中间数字。

的的意思是是所有值的和除以值的总数。
我如何决定使用哪个级别的测量?: 有些变量有固定的水平。例如，性别和种族总是名义上的数据，因为它们不能被排名。

但是，对于其他变量，可以选择测量水平．例如，收入是一个变量，可以用序数或比例尺来记录:

在一个序数水平，您可以创建5个收入分组，并将其中的收入从1-5编码。

在一个率水平，你会记录确切的收入数字。

如果您可以选择，比率级别总是更好的，因为您可以用更多的方式分析数据。测量级别越高，数据就越精确。
为什么衡量水平很重要?: 你测量a的水平变量决定如何分析数据。

取决于测量水平，您可以执行不同的描述性统计以获得数据的总体摘要和推论统计看看你的结果是支持还是反驳你的观点假设．
测量的四个层次是什么?: 测量水平告诉你变量的记录有多精确。有4个等级的测量，可以从低到高的排名:

名义上的：数据只能进行分类。

序数：可以对数据进行分类和排序。

时间间隔：可以对数据进行分类和排序，并均匀间隔。

比：数据可以被分类，排序，均匀间隔，并有一个自然的零。
p值能告诉你备择假设是否成立吗?: 不。的p价值只能告诉您所观察到的数据发生在零假设．

如果p-value低于您的重要阈值(通常p< 0.05)，那么你可以拒绝零假设，但这并不一定意味着你的备择假设是正确的。
我应该使用哪个alpha值?: 的值，或阈值统计显著性，是任意的-你使用哪个值取决于你的研究领域。

在大多数情况下，研究人员使用的alpha值为0.05，这意味着在零假设下出现被测数据的概率小于5%。
如何计算p值?: P值通常由用于执行统计测试的程序自动计算。它们也可以用p-value表检验统计量．

P-value是从测试统计量的空分布中计算出来的。它们告诉您测试统计量预期在的情况下发生的频率零假设统计检验，基于它在零分布中的位置。

如果检验统计量远离零分布的均值，则p-value将很小，表明在原假设下不太可能出现检验统计量。
p值是多少?: 一个p价值，或概率值，是一个数字，描述您的数据在零假设你的统计检验．
我如何知道使用哪个测试统计量?: 您使用的检验统计量将由统计检验确定。

你可以选择正确的统计检验通过查看您收集的数据类型以及您想要测试的关系类型。
哪些因素影响检验统计量?: 的检验统计量将根据数据中观察到的数量、观察到的变化程度以及数据中潜在模式的强度而变化。

例如，如果一个数据集有更高的可变性当另一个数据集具有较低的可变性时，第一个数据集将产生更接近于的测试统计量零假设，即使两个变量之间的真实相关性在任何一个数据集中都是相同的。
如何计算检验统计量?: 的公式检验统计量取决于统计检验被使用。

通常，测试统计量是根据数据中的模式(即之间的相关性)来计算的变量或组间的差异)除以方差在数据(即标准偏差）.
单变量、双变量和多变量描述性统计有什么区别?: 单变量统计数字只作汇总一个变量一次。

二元统计比较两个变量．

多元统计比较超过两个变量．
描述性统计的三种主要类型是什么?: 三种主要类型描述性统计关注数据集的频率分布、集中趋势和可变性。

分布指不同响应的频率。

集中趋势的度量给你每个回答的平均值。

可变性的测量显示数据集的分布情况。
描述统计和推论统计的区别是什么?: 描述性统计总结一个数据集的特征。推论统计允许你检验假设或者评估你的数据是否正确可概括的更广泛的人群。
什么是模型选择?: 在统计学中，模型选择是研究人员用来比较不同统计模型的相对值，并确定哪一个最适合观察到的数据的过程。

的赤池信息标准是最常用的模型选择方法之一。AIC将模型预测观测数据的能力与模型达到该精度水平所需的参数数量进行加权。

AIC模型选择可以帮助研究人员找到一个模型，解释他们的数据中观察到的变化，同时避免过拟合。
什么是模型?: 在统计学中，模型是一个或多个的集合独立变量研究人员用它们预测的相互作用来解释因变量的变化。

类型可以测试模型统计检验．要比较不同模型对数据的拟合程度，可以使用赤池的信息标准用于型号选择。
AIC是如何计算的?: 的赤池信息标准由模型的最大对数似然和用于达到该似然的参数数量(K)计算得出。AIC函数为2K - 2(对数似然)．

AIC值越低表明模型拟合越好，delta-AIC(两个AIC值之间的差值)大于-2的模型被认为明显优于与之比较的模型。
赤池信息标准是什么?: 的赤池信息标准是一种数学测试，用于评估模型与它要描述的数据的拟合程度。它会惩罚使用较多的模型独立变量(参数)来避免过拟合。

AIC最常用来比较所考虑的不同模型之间的相对拟合优度，然后选择最适合数据的模型。
什么是阶乘方差分析?: 阶乘方差分析是任何使用一个以上的方差分析分类自变量．一个双向方差分析是一种阶乘方差分析。

阶乘方差分析的一些例子包括:

测试疫苗接种(接种或未接种)和健康状况(健康或已有疾病)对人群流感感染率的综合影响。

测试婚姻状况(已婚、单身、离婚、丧偶)、工作状况(受雇、自雇、失业、退休)和家族史(无家族史、有家族史)对人群抑郁症发病率的影响。

测试饲料类型(A型、B型或C型)和鸡舍拥挤程度(不拥挤、有点拥挤、非常拥挤)对商业养殖操作中鸡的最终体重的影响。
方差分析如何计算统计显著性?: 在方差分析中，零假设群体均值之间没有差异。如果任何一组显著不同于整个组的平均值，那么方差分析将报告a统计上显著结果。

使用F统计量计算组均值之间的显著差异，F统计量是平均平方和的比值方差由自变量解释)到均方误差(剩余方差)。

如果F统计值高于临界值(与alpha值相对应的F值，通常为0.05)，则组间的差异被认为具有统计学意义。
单向方差分析和双向方差分析的区别是什么?: 单向和双向方差分析之间的唯一区别是的数量独立变量．单向方差分析有一个自变量，而双向方差分析有两个。

单向方差分析:在马拉松比赛中测试鞋品牌(Nike, Adidas, Saucony, Hoka)与比赛完成时间之间的关系。

双向方差分析:测试鞋品牌(耐克，阿迪达斯，Saucony, Hoka)，跑者年龄组(初级，高级，硕士)和马拉松比赛结束时间之间的关系。

所有的方差分析都是为了测试三个或更多组之间的差异。如果您只是测试两组之间的差异，请使用学习任务代替。
什么是多元线性回归?: 多元线性回归是一种回归模型，用一条直线估计一个定量因变量和两个或多个自变量之间的关系。
线性回归模型中的误差是如何计算的?: 线性回归最常使用均方误差(MSE)来计算模型的误差。MSE的计算方法为:

测量在x的每个值处观测到的y值与预测y值的距离;

将这些距离平方;

计算的意思是每个距离的平方。

线性回归通过寻找导致最小MSE的回归系数来拟合数据的直线。
什么是简单线性回归?: 简单线性回归是一种回归模型，用一条直线估计一个自变量和一个因变量之间的关系。这两个变量应该是定量的。

例如，温度和水银在温度计中的膨胀之间的关系可以用一条直线来建模:随着温度的升高，水银膨胀。这种线性关系是如此确定，以至于我们可以用水银温度计来测量温度。
什么是回归模型?: 回归模型是一种统计模型，用于估计一个依赖项之间的关系变量和一个或多个自变量使用一条线(或在两个或多个自变量的情况下一个平面)。

当因变量是定量的时，可以使用回归模型，但在逻辑回归的情况下，因变量是二进制的。
我可以用t检验来衡量几个组之间的差异吗?: 一个学习任务不应用于测量两个以上组之间的差异，因为t检验的误差结构将低估许多组进行比较时的实际误差。

如果你想同时比较几个组的平均数，最好使用另一个组统计检验如方差分析或者是事后测试。
单样本t检验和配对t检验的区别是什么?: 一个单样本t检验用于将单个人口与标准值进行比较(例如，确定特定城镇的平均寿命是否与全国平均寿命不同)。

一个配对t检验是用来比较某一特定人群之前和之后的实验干预或在两个不同的时间点进行干预(例如，在教授材料之前和之后测量学生在测试中的表现)。
t检验测量什么?: 一个学习任务测量组均值除以集合的差值标准错误两个组的均值。

通过这种方式，它计算出一个数字(t值)来说明两组被比较均值之间的差异的大小，并估计这种差异纯粹是偶然存在的可能性(p值)。
我应该用哪个t检验?: 你的选择学习任务取决于你研究的是一组还是两组，以及你是否关心组均值差异的方向。

如果你在研究一个群体，使用配对t检验为了比较一段时间内或干预后的组均值，或使用单样本t检验将组均值与标准值进行比较。如果你研究的是两组人，使用a两个示例学习任务．

如果您只想知道是否存在差异，请使用双尾检验．如果你想知道一组均值大于或小于另一组，使用左尾或右尾单侧检验．
什么是t检验?: t检验是A统计检验这是两个平均数的比较样品．它被用于假设检验，以零假设组均值之差为零另一种假设是组均值之差不为零。
什么是统计显著性?: 统计显著性研究人员使用的一个术语是表示他们的观察不太可能发生在零假设的统计检验．意义通常用a表示p价值，或概率值。

统计显著性是任意的——它取决于研究人员选择的阈值或alpha值。最常见的阈值是p< 0.05，这意味着该数据可能出现在低于5%的情况下零假设．

当p-value低于所选的alpha值，那么我们说测试的结果具有统计显著性。
什么是检验统计量?: 一个检验统计量一个数字是由a计算出来的吗统计检验．它描述了你观测到的数据距离零假设没有关系变量或者说样本组之间没有差异。

检验统计量告诉您两个或多个组与总体有多大不同的意思是，或线性斜率与由a预测的斜率有多大不同零假设．在不同的统计检验中使用不同的检验统计量。

	变化中	变化中	变化中	变化中
变化中	RRYY	RrYy	RRYy	RrYY
变化中	RrYy	rryy	Rryy	rrYy
变化中	RRYy	Rryy	RRyy	RrYy
变化中	RrYY	rrYy	RrYy	rrYY

表型	观察到的	预期
圆形和黄色	78	100 * (9/16) = 56.25
又圆又绿	6	100 * (3/16) = 18.75
皱皱发黄	4	100 * (3/16) = 18.75
皱巴巴的绿色	12	100 * (1/16) = 6.21

表型	观察到的	预期	O−E	（O−E）2	（O−E）2/ E
圆形和黄色	78	56.25	21.75	473.06	8.41
又圆又绿	6	18.75	−12.75	162.56	8.67
皱皱发黄	4	18.75	−14.75	217.56	11.6
皱巴巴的绿色	12	6.21	5.79	33.52	5.4

特征	正常的	泊松
连续或离散	连续	离散
参数	均值(µ)和标准差(σ)	λ(λ)
形状	钟形	取决于λ
对称	对称的	不对称(右偏态)。随着λ的增大，不对称性减小。
范围	−∞到∞	0到∞