相关系数|类型、公式及实例

一个相关系数一个介于-1和1之间的数字能告诉你之间关系的强度和方向吗变量

换句话说,它反映了一个数据集中两个或多个变量的测量有多相似。

相关系数值 关联类型 意义
1 完全正相关 当一个变量发生变化时,其他变量也会朝着相同的方向变化。
0 零相关 变量之间没有关系。
-1 完全负相关 当一个变量发生变化时,其他变量会反向变化。

图形可视化完美的正相关,零,和完美的负相关

相关系数告诉你什么?

相关系数总结帮助你比较不同研究的结果。

总结数据

相关系数是A描述性统计.这意味着它可以总结样本数据而不需要您推断出任何关于人口的东西。相关系数是一个双变量统计量,它总结了两个变量之间的关系,当你有两个以上的变量时,它是一个多变量统计量。

如果你的相关系数是基于样本数据,你将需要一个推论统计如果你想的话概括你对大众的结果。你可以用F检验或者at测验计算a检验统计量这告诉你统计显著性你的发现。

比较研究

相关系数也是影响的大小度量,它告诉你结果的实际意义。

相关系数是无单位的,这使得直接比较研究之间的系数成为可能。

使用相关系数

相关研究,你调查一个变量的变化是否与其他变量的变化相关。

相关研究实例
你调查高中的标准化分数是否与大学的学业成绩有关。你预测这是一种正相关:较高的SAT分数与较高的大学gpa相关,而较低的SAT分数与较低的大学gpa相关。

数据收集,通过在x轴上绘制一个变量,在y轴上绘制另一个变量,您可以用散点图可视化您的数据。不管你把哪个变量放在哪个轴上。

目视检查你的图表的模式,并确定变量之间是否存在线性或非线性模式。线性模式意味着您可以在数据点之间拟合一条最佳拟合的直线,而非线性或曲线模式可以采用各种不同的形状,例如u型或带有曲线的直线。

目视检查实例
你收集一个样本5000名大学毕业生和调查他们的高中SAT成绩和大学gpa。你可以将数据可视化为散点图,以检查线性模式:

检查散点图的线性模式

你可以计算很多不同的相关系数。后删除任何异常值,根据散点图模式的大致形状选择合适的相关系数。然后,您可以执行相关分析以找到数据的相关系数。

你计算一个相关系数来总结变量之间的关系,而不得出任何结论因果关系

相关分析实例
你检查数据是否满足皮尔森r相关检验的所有假设。

这两个变量都是定量的和正态分布没有异常值,所以你计算a皮尔森的r相关系数

相关系数为。58。

以下是学生们喜欢Scribbr校对服务的原因

发现校对和编辑

解释相关系数

相关系数的值总是在1到-1之间,你可以把它作为变量之间关系强度的一般指标。

标志的系数反映了变量的变化方向是相同的还是相反的:正值意味着变量在同一方向上一起变化,而负值意味着它们在相反的方向上一起变化。

绝对值一个数的值等于另一个数的值它的的迹象。相关系数的绝对值告诉你相关性的大小:绝对值越大,相关性越强。

有许多不同的指导方针来解释相关系数,因为研究领域之间的结果可能会有很大差异。您可以使用下表作为从相关系数值解释相关强度的一般准则。

虽然这条指导方针在紧要关头是有用的,但在得出结论时,更重要的是要考虑到你的研究背景和目的。例如,如果您所在领域的大多数研究的相关系数接近0.9,那么在这种情况下,0.58的相关系数可能较低。

相关系数 相关强度 关联类型
-.7到-1 非常强烈的
-.5到- 0.7 强大的
-.3到- 0.5 温和的
0到- 0.3
0 没有一个
0到0.3 积极的
。3到。5 温和的 积极的
。5到。7 强大的 积极的
.7比1 非常强烈的 积极的

线性相关性可视化

相关系数告诉你数据在直线上的匹配度。如果您有一个线性关系,您将在散点图上绘制一条将所有数据点考虑在内的最佳拟合直线。

你的点越接近这条线,相关系数的绝对值越高,你的线性相关性越强。

如果所有点都在这条线上,就有完美的相关性。

完美的正相关和完美的负相关,所有的点都在一条线上

如果所有点都靠近这条线,相关系数的绝对值为

高正相关性和高负相关性,即所有点都靠近直线

如果这些点远离这条线,相关系数的绝对值为

低正相关性和低负相关性,点在直线周围分布广泛

请注意,直线的陡度或斜率与相关系数值无关。相关系数并不能帮助您预测一个变量将根据另一个变量的给定变化发生多大变化,因为具有相同相关系数值的两个数据集可能具有斜率非常不同的直线。

两个正相关,相关系数相同但斜率不同

相关系数的类型

您可以根据关系的线性度从许多不同的相关系数中进行选择测量水平变量和数据的分布。

对于高统计能力至于准确性,最好使用最适合你的数据的相关系数。

最常用的相关系数是Pearson 's r,因为它可以提供强有力的推论。这是参数测量线性关系。但如果你的数据不符合全部假设对于这个测试,您需要使用非参数测试。

秩相关系数的非参数检验总结了变量之间的非线性关系。斯皮尔曼的和肯德尔的有相同的使用条件,但肯德尔的一般首选较小的样本,而斯皮尔曼的使用更广泛。

下表是一些常用的相关系数,我们将在本文中详细介绍两个使用最广泛的相关系数。

相关系数 关系类型 测量水平 数据分布
皮尔森是r 线性 两个定量(区间或比率)变量 正态分布
斯皮尔曼的ρ 非线性 两个序数,区间或比率变量 任何分布
点二列 线性 一个二分(二元)变量和一个定量(时间间隔或比率)变量 正态分布
Cramér的V (Cramér的φ) 非线性 两个名义变量 任何分布
肯德尔的τ 非线性 二序,区间或比例变量 任何分布

皮尔森是r

皮尔逊积矩相关系数,也称为皮尔逊r,描述了两个定量变量之间的线性关系。

如果你想使用皮尔逊r,你的数据必须满足以下假设:

  • 这两个变量都是在一个区间或比率水平的测量
  • 两个变量的数据均服从正态分布
  • 您的数据没有异常值
  • 你的数据来自a随机或代表性样品
  • 你期望这两个变量之间有线性关系

Pearson 's r是一个参数检验,因此具有较高的幂。但如果你的变量有非线性关系,或者你的数据有异常值,倾斜分布,或者来自分类变量,那么它就不是一个很好的相关性测量方法。如果违反了这些假设中的任何一个,您应该考虑等级相关度量。

皮尔逊系数r的公式很复杂,但大多数计算机程序都可以快速地从你的数据中得出相关系数。在一个简单的形式,该公式除以变量之间的协方差的乘积标准差

公式 解释

\{方程*}开始r = \压裂{n \ {xy} -总和(\ {x})和(\ {y})和}{% \√6 {[n \ {x ^ 2} -总和(\总和{x}) ^ 2] [n \ {y ^ 2} -总和(\总和{y}) ^ 2]}}{方程*}\结束

  • r_ {xy} =变量x和y之间的相关性强度
  • n 样本量
  • \总和 =后面的总和…
  • X =每个x变量值
  • Y =每个y变量值
  • XY =每个x变量分数与对应的y变量分数的乘积

皮尔逊样本与总体相关系数公式

当使用皮尔逊相关系数公式时,你需要考虑你是在处理来自样本还是整个人口的数据。

样本公式和总体公式的符号和输入不同。我们称之为样本相关系数r,而总体相关系数被称为rho,即希腊字母ρ。

样本相关系数使用变量之间的样本协方差及其样本标准差。

样本相关系数公式 解释

\{方程*}开始r_ {xy} = \压裂{x (x, y)} {{s_x} {s_y}}{方程*}\结束

  • rxy=变量x和y之间的相关性强度
  • xy) = x和y的协方差
  • 年代x= x的样本标准差
  • 年代y= y的样本标准差

总体相关系数使用变量之间的总体协方差及其总体标准差。

总体相关系数公式 解释

{方程*}\ \开始rho_ {XY} = \压裂{X (X, Y)} {{\ sigma_X} {\ sigma_Y}}{方程*}\结束

  • ρXY=变量X和Y之间的相关性强度
  • XY) = X和Y的协方差
  • σX= X的总体标准差
  • σY= Y的总体标准差

斯皮尔曼的ρ

斯皮尔曼的rho,或斯皮尔曼的等级相关系数,是最常见的替代皮尔逊r.这是一个等级相关系数,因为它使用来自每个变量的数据的排名(例如,从最低到最高),而不是原始数据本身。

当你的数据不能满足皮尔逊的假设时,你应该使用斯皮尔曼的r.当至少有一个变量处于有序测量水平,或者来自一个或两个变量的数据不符合正态分布时,就会发生这种情况。

皮尔逊相关系数衡量关系的线性,斯皮尔曼相关系数衡量关系的单调性。

在线性关系中,每个变量在整个数据范围内以相同的速率向一个方向变化。在单调关系中,每个变量也总是只在一个方向上变化,但不一定以相同的速率变化。

  • 正单调:当一个变量增加时,另一个变量也增加。
  • 负单调:当一个变量增加时,另一个变量减少。

单调关系比线性关系限制更少。

显示正、负、零单调关系的图

斯皮尔曼等级相关系数公式

斯皮尔曼系数的符号是ρ,代表总体系数,r年代对于样本系数。这个公式计算的是皮尔逊系数r各变量数据之间的排名相关系数。

要使用这个公式,首先将每个变量的数据从低到高分别排序:每个数据点的排名分别为第一、第二或第三,等等。

然后,你会发现差异(d),并将其作为公式的主要输入。

斯皮尔曼等级相关系数公式 解释

\{方程*}开始r_{年代}= 1 - \压裂{6 \ {d ^ 2 _i}}和{(n ^ 3 n)} \{方程*}结束

  • r年代=变量之间等级相关的强度
  • d=每对数据的x变量秩和y变量秩之差
  • d2= x和y变量秩差的平方和
  • n样本量

如果相关系数为1,则每个变量的所有排名都与每个数据对匹配。如果相关系数为-1,则其中一个变量的排名与另一个变量的排名完全相反。相关系数接近于零意味着变量排名之间没有单调的关系。

其他系数

相关系数与另外两个系数相关,这两个系数为你提供了关于变量之间关系的更多信息。

决定系数

当你平方相关系数,你最终得到相关的决定(r2).这是常见的比例方差变量之间。决定系数总是在0和1之间,通常用百分数表示。

决定系数 解释
r2 相关系数乘以自身

中使用了决定系数回归模型衡量一个变量的方差有多少是由另一个变量的方差解释的。

回归分析可以帮助您找到最佳拟合线的方程,并且您可以使用它来预测给定另一个变量的值的一个变量的值。

一个高r2意味着大量的可变性一个变量是由它与另一个变量的关系决定的。一个低r2意味着一个变量的变异性只有一小部分是由它与另一个变量的关系来解释的;与其他变量的关系更有可能解释变量中的方差。

相关系数往往会高估变量之间的关系,特别是在小样本中,因此决定系数往往是更好的关系指标。

异化系数

当你从统一(1)中去掉决定系数,你会得到异化系数。这是变量之间不共享的共同方差的比例,变量之间无法解释的方差。

异化系数 解释
1 -r2 1减去决定系数

一个高的异化系数表明两个变量共享很少的共同方差。一个低的异化系数意味着大量的方差被变量之间的关系所解释。

有关相关系数的常见问题

什么是相关性?

一个相关反映两个或多个变量之间关联的强度和/或方向。

  • 一个正相关意味着两个变量的变化方向相同。
  • 一个负相关意味着变量的变化方向相反。
  • 一个零相关意味着变量之间没有关系。
一个相关关系中有多少个变量?

一个相关通常一次测试两个变量,但您可以测试三个或更多变量之间的相关性。

什么是相关系数?

一个相关系数是描述变量之间关系的强度和方向的单个数字。

不同类型的相关系数可能适用于您的数据测量水平而且分布.的皮尔逊积矩相关系数r通常用于评估两个定量变量之间的线性关系。

皮尔逊相关系数的假设是什么?

如果要使用这些数据,则必须满足这些假设皮尔森的r

相关系数的符号和值告诉你什么?

相关系数总是在-1和1之间。

系数的符号告诉你关系的方向:正值意味着变量在同一个方向上一起变化,而负值意味着它们在相反的方向上一起变化。

一个数的绝对值等于不带符号的数。相关系数的绝对值告诉你相关性的大小:绝对值越大,相关性越强。

相关系数是否等于直线的斜率?

不,直线的陡度或斜率与相关系数价值。相关系数只告诉你数据在直线上的拟合程度,所以具有相同相关系数的两个数据集可能有非常不同的斜率。

为了求出直线的斜率,你需要执行a回归分析

引用这篇Scribbr文章

如果你想引用这个来源,你可以复制和粘贴引用或点击“引用这篇Scribbr文章”按钮,自动添加到我们的免费引用生成器引用。

班达里,P.(2022年12月05日)。相关系数|类型、公式及实例。Scribbr。检索于2022年12月17日,来自//www.charpingshvac.com/statistics/correlation-coefficient/

这篇文章有用吗?
Pritha班达里

普里塔拥有英语、心理学和认知神经科学方面的学术背景。作为一名跨学科研究人员,她喜欢为学生和学者撰写文章,解释棘手的研究概念。
Baidu