统计分析初学者指南| 5步和例子

统计分析意味着调查使用的趋势、模式和关系定量数据.它是科学家、政府、企业和其他组织使用的重要研究工具。

为了得出有效的结论,统计分析需要从一开始就仔细规划研究过程.你需要明确你的假设,并对你的研究设计、样本量和抽样程序做出决定。

从样本中收集数据后,您可以使用组织和总结数据描述性统计.然后,你可以使用推论统计正式检验假设并对总体进行估计。最后,您可以解释和概括您的发现。

这篇文章是一个实用的介绍统计分析的学生和研究人员。我们将通过两个研究示例引导您完成这些步骤。第一个调查潜在的因果关系,而第二个调查潜在的因果关系相关变量之间的关系。

例子:因果研究问题
冥想能提高青少年的考试成绩吗?
例子:相关性研究问题
父母的收入和大学平均绩点(GPA)之间有关系吗?

第一步:写下你的假设并计划你的研究设计

要收集有效数据进行统计分析,首先需要指定您的假设并计划你的研究设计。

编写统计假设

研究的目标通常是调查研究对象中变量之间的关系人口.你从一个预测开始,然后使用统计分析来检验这个预测。

统计假设是一种关于人口预测的正式形式。每一个研究预测都被重新表述零假设和替代假设可以使用样本数据进行测试。

零假设总是预测变量之间没有影响或没有关系,而备择假设陈述了你对影响或关系的研究预测。

例子:检验效果的统计假设
  • 零假设:5分钟的冥想练习对青少年的数学考试成绩没有任何影响。
  • 备择假设:5分钟的冥想练习可以提高青少年的数学考试成绩。
示例:用于检验相关性的统计假设
  • 零假设:父母收入与大学生平均绩点之间没有明显的关系。
  • 备择假设:父母收入与大学生平均绩点呈正相关。

规划你的研究设计

一个研究设计是数据收集和分析的总体策略。它决定了你以后可以用来检验你的假设的统计检验。

首先,决定你的研究将使用描述性、相关性还是实验性设计。实验直接影响变量,而描述性和相关性研究只测量变量。

  • 在一个实验设计,你可以评估因果关系(例如,冥想对考试成绩的影响),使用比较或回归的统计测试。
  • 在一个相关设计你可以探索变量之间的关系(例如,父母的收入和GPA),而不需要使用相关系数和显著性检验来假设因果关系。
  • 在一个描述性的设计,你可以研究一个群体或现象的特征(例如,焦虑在美国大学生中的流行),使用统计测试从样本数据中得出推论。

你的研究设计还涉及到你是在群体层面还是个人层面比较参与者,还是两者都比较。

  • 在一个主题之间的设计,你比较了接受不同治疗的参与者的群体水平结果(例如,进行冥想练习的人与没有进行冥想练习的人)。
  • 在一个试设计,你比较了参与研究所有治疗的参与者的重复测量(例如,在进行冥想练习之前和之后的分数)。
  • 在一个混合(阶乘)设计例如,受试者之间的一个变量改变了,受试者内部的另一个变量改变了(例如,参加或没有参加冥想练习的参与者的前测和后测分数)。
例子:实验研究设计
你设计了一个受试者内部实验,研究5分钟的冥想练习是否能提高数学考试成绩。你的研究对一组参与者进行重复测量。

首先,您将从参与者那里获得基准测试分数。然后,参与者将进行5分钟的冥想练习。最后,您将记录参与者在第二次数学测试中的分数。

在这个实验中,独立变量是5分钟冥想练习,因变量是干预前后的数学考试成绩。

例子:相关性研究设计
在一项相关研究中,你测试了即将毕业的大学生的父母收入和GPA之间是否存在关系。为了收集你的数据,你会要求参与者填写一份调查,并自我报告他们父母的收入和他们自己的GPA。

在这项研究中没有因变量或自变量,因为你只想测量变量而不以任何方式影响它们。

测量变量

当计划一个研究设计时,你应该实施你的变量,并决定如何测量它们。

对于统计分析,重要的是要考虑测量水平你的变量,它告诉你它们包含什么类型的数据:

  • 分类数据表示分组。这些可能是名义上的(例如,性别)或序数(例如语言能力水平)。
  • 定量数据代表数量。这些可能在等距量表(例如考试成绩)或a比率量表(如年龄)。

许多变量可以在不同的精度水平上测量。例如,年龄数据可以是定量的(8岁)或分类的(年轻)。如果一个变量是用数字编码的(例如,从1到5的一致级别),这并不意味着它是定量的而不是分类的。

确定测量水平对于选择适当的统计数据和假设检验很重要。例如,可以用定量数据计算平均分,但不能用分类数据。

在研究研究中,除了你感兴趣的变量的测量外,你还经常会收集有关参与者特征的数据。

例子:变量(实验)
您可以使用定量年龄或测试分数数据进行许多计算,而分类变量可用于决定比较测试的分组。

变量 数据类型
年龄 定量(比例)
性别 分类(名义上的)
种族或民族 分类(名义上的)
基准测试分数 定量(间隔)
期末考试成绩 定量(间隔)
例子:变量(相关研究)
相关研究中的变量类型决定了您将用于相关系数的测试。参数相关检验可用于定量数据,而非参数相关检验应用于其中一个变量序数

变量 数据类型
父母的收入 定量(比例)
平均绩点 定量(间隔)

步骤2:从样本中收集数据

总体vs样本

在大多数情况下,从每个成员中收集数据是非常困难或昂贵的人口你对学习感兴趣。相反,您将从样本中收集数据。

统计分析可以让你把你的发现应用到你自己的样本之外,只要你使用得当抽样程序.你应该瞄准一个能代表总体的样本。

统计分析抽样

选择样本有两种主要方法。

  • 概率抽样:人口中的每个成员都有机会通过随机选择被选为研究对象。
  • Non-probability抽样:由于方便或自愿自我选择等标准,人口中的一些成员比其他人更有可能被选为研究对象。

理论上,对于高度一般化的发现,应该使用概率抽样方法。随机选择减少了研究偏差的类型,就像抽样偏差,并确保来自样本的数据实际上是总体的典型。参数测试当使用概率抽样收集数据时,可用于做出强有力的统计推断。

但在实践中,几乎不可能收集到理想的样本。而非概率样本更有可能存在偏差的风险,比如自己挑选的偏见在美国,他们更容易招募和收集数据。非参数测试更适合于非概率样本,但它们对总体的推论较弱。

如果你想对非概率样本使用参数检验,你必须证明:

  • 你的样本代表了你要推广你的发现的总体。
  • 你的样本缺乏系统性偏差。

请记住外部效度意味着你只能将你的结论推广到与你的样本特征相同的其他人身上。例如,来自西方、受过良好教育、工业化、富裕和民主的样本(例如,美国大学生)的结果就不是这样自动适用所有非weird人群。

如果您将参数检验应用于来自非概率样本的数据,请务必详细说明您的结果可以在您的应用中推广到何种程度的限制讨论部分

创建适当的抽样过程

根据你的研究可用的资源,决定你将如何招募参与者。

  • 你是否有资源广泛宣传你的学习,包括在你的大学环境之外?
  • 你是否有办法招募代表广泛人群的多样化样本?
  • 你有时间联系和跟进那些难以接触到的小组成员吗?
例:抽样(实验)
你感兴趣的人群是你所在城市的高中生。你联系了城市不同地区的三所私立学校和七所公立学校,看看你能否把你的实验应用到11年级的学生身上。

参与者由学校自行选择。虽然你使用的是非概率样本,但你的目标是多样化和有代表性的样本。

示例:抽样(相关研究)
你的主要调查对象是美国的男性大学生。利用社交媒体广告,你从一个较小的亚群体中招募大四的男性大学生:波士顿地区的七所大学。

你的参与者自愿参与调查,使这成为一个非概率样本。

计算足够的样本量

在招募参与者之前,决定你的样本大小可以参考你所在领域的其他研究,也可以使用统计学。过小的样本可能无法代表样本,而过大的样本将比必要的成本更高。

有很多样本量计算器网上。不同的公式取决于你是否有亚组或你的研究有多严格(例如,在临床研究中)。根据经验,每个子组至少需要30个单位或更多。

要使用这些计算器,你必须了解并输入这些关键组件:

  • 显著性水平(alpha):拒绝一个你愿意接受的真零假设的风险,通常设置为5%。
  • 统计能力你的研究发现一定规模效应的概率(如果有的话),通常是80%或更高。
  • 预期影响的大小你的研究预期结果有多大的标准化指示,通常基于其他类似的研究。
  • 总体标准差:根据先前的研究或您自己的初步研究对总体参数进行估计。

以下是学生们喜欢Scribbr校对服务的原因

发现校对和编辑

第三步:用描述性统计来总结你的数据

一旦收集了所有数据,就可以检查它们并进行计算描述性统计这就是他们的总结。

检查数据

检查数据的方法有很多种,包括以下几种:

  • 组织来自每个变量的数据频率分布表
  • 类中的关键变量显示数据条形图查看响应的分布情况。
  • 可视化两个变量之间的关系散点图

通过在表格和图形中可视化数据,您可以评估数据是否遵循倾斜分布或正态分布,以及是否存在异常值或缺失数据。

一个正态分布意味着您的数据对称地分布在大多数值所在的中心周围,值在尾端逐渐减少。

正态分布的均值、中位数、模态和标准差

相反,偏态分布非对称的,一端的值比另一端多。分布的形状很重要,要记住,因为只有一些描述性统计数据应该用于倾斜分布。

极端的离群值也会产生误导性的统计数据,因此您可能需要一个系统的方法来处理这些值。

计算集中趋势的度量

的措施集中趋势描述数据集中大部分值的位置。集中趋势通常有三种主要的测量方法:

  • 模式数据集中最受欢迎的响应或值。
  • 中位数当从低到高排序时,位于数据集正中间的值。
  • 的意思是所有值的和除以值的个数。

然而,根据分布的形状和测量的水平,这些测量中只有一两个可能是合适的。例如,许多人口统计特征只能用模态或比例来描述,而像反应时间这样的变量可能根本没有模态。

计算可变性的度量

的措施可变性告诉您数据集中的值是如何分布的。通常报告的变异性主要有四种测量方法:

  • 范围最高值减去数据集的最低值。
  • 四分位范围数据集中间一半的范围。
  • 标准偏差数据集中每个值与平均值之间的平均距离。
  • 方差标准差的平方。

      再一次,分布的形状和测量水平应该指导您选择可变性统计。四分位间距是倾斜分布的最佳度量,而标准差和方差为正态分布提供了最佳信息。

      示例:描述性统计(实验)
      在收集全市30名学生的测试前和测试后数据后,您可以计算描述性统计数据。因为你有一个区间尺度上的正态分布数据,你把平均值,标准差,方差和范围制成表格。

      使用您的表格,您应该检查描述性统计的单位是否具有测试前和测试后分数的可比性。例如,各组之间的方差水平是否相似?是否存在极端值?如果存在,您可能需要在执行统计测试之前识别和删除数据集中的极端异常值或转换数据。

      预备考试分数 期末测验分数
      的意思是 68.44 75.25
      标准偏差 9.43 9.88
      方差 88.96 97.96
      范围 36.25 45.12
      N 30.

      从这个表格中,我们可以看到冥想练习后的平均分有所增加,并且两个分数的方差具有可比性。接下来,我们可以进行统计检验,以确定这种测试分数的提高在人群中是否具有统计学意义。

      示例:描述性统计(相关研究)
      在收集了653名学生的数据后,你将父母年收入和GPA的描述性统计数据制成表格。

      检查你是否有广泛的数据点范围是很重要的。如果你不这样做,你的数据可能会更倾向于某些群体(例如,学业成绩高的人),并且只能对一种关系做出有限的推断。

      父母收入(美元) 平均绩点
      的意思是 62100年 3.12
      标准偏差 15000年 0.45
      方差 225000000年 0.16
      范围 8000 - 378000 2.64 - -4.00
      N 653

      接下来,我们可以计算相关系数并进行统计检验,以了解总体中变量之间关系的显著性。

      第四步:用推论统计来检验假设或做出估计

      描述样本的数字称为A统计,而描述总体的数字称为a参数.使用推论统计,可以根据样本统计量得出总体参数的结论。

      在统计学中,研究人员经常使用两种主要方法(同时)进行推断。

      • 估计:基于样本统计量计算总体参数。
      • 假设检验:用样本检验关于总体的研究预测的正式过程。

      估计

      你可以从样本统计量中对总体参数进行两种类型的估计:

      • 一个点估计:表示您对确切参数的最佳猜测的值。
      • 一个区间估计:表示参数所在位置的最佳猜测的值范围。

      如果你的目标是推断出从样本数据中报告总体特征时,最好在论文中同时使用点估计和区间估计。

      当你有一个具有代表性的样本时,你可以认为样本统计量是总体参数的点估计(例如,在一个广泛的民意调查中,支持当前政府的样本比例被视为政府支持者的总体比例)。

      估计中总会有错误,所以您还应该提供一个置信区间作为一个区间估计来显示点估计周围的可变性。

      置信区间使用标准错误z标准正态分布来传达你通常期望在哪里找到总体参数。

      假设检验

      使用来自样本的数据,您可以测试假说关于总体变量之间的关系。假设检验首先假设零假设在总体中为真,然后使用统计检验来评估零假设是否可以被拒绝。

      统计测试如果零假设成立,确定样本数据在样本数据预期分布上的位置。这些测试给出了两个主要输出:

      • 一个检验统计量告诉你你的数据与检验的零假设有多大不同。
      • 一个p价值告诉你如果零假设在总体中为真得到结果的可能性。

      统计检验主要有三种类型:

      • 比较测试评估结果的组间差异。
      • 回归测试评估变量之间的因果关系。
      • 相关测试评估变量之间的关系而不假设因果关系。

      统计检验的选择取决于你的研究问题、研究设计、抽样方法和数据特征。

      参数测试

      参数检验可以根据样本数据对总体进行强有力的推断。但是要使用它们,一些假设必须满足,并且只能使用某些类型的变量。如果您的数据违反这些假设,您可以执行适当的数据转换或使用备选非参数检验代替。

      一个回归对预测变量的变化导致结果变量变化的程度进行建模。

      比较测试通常比较各组的平均数。这些可能是一个样本中不同组的均值(例如,处理组和对照组),一个样本组在不同时间的均值(例如,测试前和测试后得分),或者样本均值和总体均值。

      • 一个t测试当样本很小(30或更少)时,仅适用于1或2组。
      • 一个z当样本较大时,测试只针对1组或2组。
      • 一个方差分析是为3个或更多的团体。

      z而且t根据样本的数量和类型以及假设,检验有子类型:

      • 如果你只有一个样本想要与总体均值进行比较,使用a一个示例测试
      • 如果您有配对测量(在受试者设计中),请使用依赖(配对)样本测试
      • 如果你从两个不匹配的组中获得完全独立的测量值(受试者间设计),则使用独立(未配对)样本检验
      • 如果您希望组之间在特定方向上有差异,请使用单侧检验
      • 如果您对组间差异的方向没有任何期望,请使用双尾检验

      唯一的参数相关测试是培生的r.相关系数(r)告诉你两个定量变量之间线性关系的强度。

      然而,为了测试样本中的相关性是否强大到在总体中重要,还需要执行相关系数的显著性检验,通常是at测试,获得一个p价值。该测试使用样本量来计算总体中相关系数与零的差异有多大。

      例如:配对t实验研究测试
      因为你的研究设计是一个受试者内实验,前测和后测测量都来自同一组,所以你需要一个依赖的(成对的)t测试。因为你预测了一个特定方向的变化(考试分数的提高),所以你需要一个单侧测试。

      你用的是单尾依赖样本t测试以评估冥想练习是否能显著提高数学考试成绩。这个测试给你:

      • 一个t值(测试统计量)为3.00
      • 一个p0.0028的值
      示例:相关系数和显著性检验
      你用皮尔逊公式r来计算样本中父母收入和GPA之间线性关系的强度。皮尔森的r值为0.12,说明样本中相关性较小。

      尽管皮尔森的r是一个检验统计量,它没有告诉你任何关于在总体中相关性有多重要。您还需要测试这个样本相关系数是否足够大,以证明在总体中的相关性。

      一个t测试还可以根据样本量确定相关系数与零之间的差异有多显著。因为你期望父母收入和GPA之间呈正相关,所以你使用的是单样本、单尾t测试。的t测试给你:

      • 一个t3.08的值
      • 一个p值为0.001

      第五步:解释结果

      统计分析的最后一步是解释结果。

      统计显著性

      在假设检验中,统计显著性是形成结论的主要标准。你比较p值到设置的显著性水平(通常为0.05),以决定结果在统计上是显著的还是不显著的。

      统计上显著的结果被认为不太可能仅仅由于偶然而产生。只有当零假设在总体中为真时,出现这种结果的几率才非常低。

      例子:解释你的实验结果
      你比较p从0.0027到0.05的显著性阈值。因为你p值更低,你决定拒绝零假设,你认为你的结果有统计学意义。

      这意味着你相信冥想干预,而不是随机因素,直接导致了考试成绩的提高。

      例子:解释你的结果(相关研究)
      你比较p从0.001到0.05的显著性阈值。与一个p值低于此阈值,则可以拒绝原假设。这表明,男性大学生的父母收入与GPA之间存在统计学意义上的相关性。

      请注意,相关性并不总是意味着因果关系,因为通常有许多潜在因素对GPA这样复杂的变量产生影响。即使一个变量与另一个变量相关,这也可能是因为第三个变量影响了它们,或者两个变量之间存在间接联系。

      大样本量也可以通过使非常小的相关系数看起来显著而强烈地影响相关系数的统计显著性。

      影响的大小

      统计上显著的结果并不一定意味着一项发现在现实生活中有重要的应用或临床结果。

      相比之下,影响的大小表明你的结果的实际意义。重要的是要报告效应大小和你的推断统计数据,以完整地描绘你的结果。如果您正在编写一个分析,还应该报告效应大小的间隔估计APA格式论文

      例子:效应量(实验)
      计算科恩系数d找出测试前和测试后分数的差异大小。

      科恩的d0.72分,你发现冥想练习提高了考试成绩,这一发现具有中高的实际意义。

      例子:效应量(相关研究)
      为了确定相关系数的效应大小,您可以比较您的皮尔逊r值与科恩效应量标准的比值。

      因为你的值在0.1到0.3之间,你发现父母收入和GPA之间的关系的影响非常小,实际意义有限。

      决策错误

      第一类和第二类错误是研究结论中的错误。第一类错误是指在零假设为真时拒绝它,而第二类错误是指在零假设为假时未能拒绝它。

      您可以通过选择最佳显著性水平并确保较高的显著性水平来最小化这些错误的风险权力.然而,在这两种错误之间有一个权衡,所以一个良好的平衡是必要的。

      频率论与贝叶斯统计

      传统上,频率论统计强调零假设显著性检验,总是从一个真零假设的假设开始。

      然而,在过去的几十年里,贝叶斯统计作为一种替代方法越来越受欢迎。在这种方法中,你使用之前的研究,根据你的预期和观察不断更新你的假设。

      贝叶斯因子比较的是零假设和备择假设的证据的相对强度,而不是做出拒绝零假设或不接受零假设的结论。

      这篇文章有用吗?

      更多有趣的文章

      Baidu