Pearson相关系数(r) |指南与示例

皮尔逊相关系数(r是测量线性相关性最常用的方法。它是一个介于-1和1之间的数字,用来衡量两个变量之间关系的强度和方向。

皮尔逊相关系数(r 关联类型 解释 例子
在0和1之间 正相关 当一个变量改变时,另一个变量在同一方向 宝宝身长体重:

婴儿出生时间越长,体重就越重。

0 没有相关 没有关系变量之间。 汽车价格及雨刷宽度:

汽车的价格与雨刷的宽度无关。

之间的
0和-1
负相关 当一个变量改变时,另一个变量在相反的方向 标高及气压:

海拔越高,气压越低。

皮尔森相关系数是什么?

皮尔逊相关系数(r)是使用最广泛的相关系数,并有许多名称:

  • 皮尔森的r
  • 二元关联
  • 皮尔逊积矩相关系数(PPMCC)
  • 相关系数

皮尔森相关系数是a<一个href="//www.charpingshvac.com/statistics/descriptive-statistics/" data-wpel-link="internal">描述性统计,这意味着它总结了数据集的特征。具体来说,它描述了两个定量变量之间线性关系的强度和方向。

虽然解释的关系强度(也称为<一个href="//www.charpingshvac.com/statistics/effect-size/" data-wpel-link="internal">影响的大小)不同的学科,下表给出了一般的经验法则:

皮尔逊相关系数(r)值 强度 方向
大于0.5 强大的 积极的
介于。3和。5之间 温和的 积极的
在0到。3之间 积极的
0 没有一个 没有一个
在0到- 0.3之间
在——之间。3和-。5 温和的
小于- 0.5 强大的

皮尔逊相关系数也是<一个href="//www.charpingshvac.com/statistics/inferential-statistics/" data-wpel-link="internal">推论统计,这意味着它可以被用来<一个href="//www.charpingshvac.com/statistics/hypothesis-testing/" data-wpel-link="internal">检验统计假设.具体来说,我们可以检验两个变量之间是否存在显著关系。

Pearson相关系数的可视化

另一种思考皮尔逊相关系数(r)是用来衡量观测结果与a的接近程度<一个href="//www.charpingshvac.com/statistics/simple-linear-regression/" data-wpel-link="internal">最佳拟合线.

皮尔逊相关系数还告诉你最佳拟合线的斜率是负的还是正的。当斜率为负时,r是负的。当斜率为正时,r是正的。

r为1或-1时,所有点都恰好落在最佳拟合的直线上:

强正相关和强负相关

r大于。5或小于-。5, the points are close to the line of best fit:

完美的正相关和完美的负相关

r在0和。3之间或者0和-之间。3、各点距离最佳拟合线较远:

低正相关和低负相关

r为0时,最佳拟合线对描述变量之间的关系没有帮助:

零相关

以下是学生们喜欢Scribbr校对服务的原因

发现校对和编辑

何时使用皮尔逊相关系数

皮尔逊相关系数(r)是其中之一<一个href="//www.charpingshvac.com/statistics/correlation-coefficient/" data-wpel-link="internal">相关系数当你想要衡量相关性时,你需要在两者之间做出选择。皮尔逊相关系数是一个很好的选择所有以下是正确的:

  • 两个变量都是定量如果其中一个变量是<一个href="//www.charpingshvac.com/methodology/qualitative-research/" data-wpel-link="internal">定性.
  • 变量是正态分布您可以为每个变量创建一个直方图,以验证分布是否近似正态分布。这不是问题,如果<一个href="//www.charpingshvac.com/methodology/types-of-variables/" data-wpel-link="internal">变量有点不正常。
  • 数据显示没有离群值异常值是与其他数据不遵循相同模式的观察值。散点图是检查异常值的一种方法——寻找远离其他点的点。
  • 关系是线性的:“线性”意味着两个变量之间的关系可以用一条直线很好地描述。您可以使用散点图来检查两个变量之间的关系是否为线性关系。

Pearson和Spearman的等级相关系数

斯皮尔曼等级相关系数是另一个广泛使用的相关系数。这是比皮尔逊相关系数更好的选择一个或多个下列是正确的:

  • 变量是<一个href="//www.charpingshvac.com/statistics/ordinal-data/" data-wpel-link="internal">序数.
  • 变量不是<一个href="//www.charpingshvac.com/statistics/normal-distribution/" data-wpel-link="internal">正态分布.
  • 数据包括异常值。
  • 变量之间的关系是非线性的而且单调。

计算Pearson相关系数

以下是皮尔逊相关系数(r):

\{方程*}开始r = \压裂{n \ {xy} -总和(\ {x})和(\ {y})和}{% \√6 {[n \ {x ^ 2} -总和(\总和{x}) ^ 2] [n \ {y ^ 2} -总和(\总和{y}) ^ 2]}}{方程*}\结束

按照下面的分步指导,这个公式很容易使用。您还可以使用R或Excel等软件为您计算皮尔逊相关系数。

例如:数据集
想象一下,你正在研究新生儿体重和身高之间的关系。你有上个月在当地医院出生的10个婴儿的体重和长度。将英制单位转换为公制单位后,在表格中输入数据:

体重(公斤) 长度(厘米)
3.63 53.1
3.02 49.7
3.82 48.4
3.42 54.2
3.59 54.9
2.87 43.7
3.03 47.2
3.46 45.2
3.36 54.4
3.3 50.4

第一步:计算的和x而且y

首先将变量重命名为“x"和"y调用哪个变量并不重要x叫做y-公式给出的答案是一样的。

接下来,将的值相加x而且y.(在公式中,这一步由符号Σ表示,意思是“取的和”。)

示例:计算x和y的和
重量=x

长度=y

Σx= 3.63 + 3.02 + 3.82 + 3.42 + 3.59 + 2.87 + 3.03 + 3.46 + 3.36 + 3.30

Σx= 33.5

Σy= 53.1 + 49.7 + 48.4 + 54.2 + 54.9 + 43.7 + 47.2 + 45.2 + 54.4 + 50.4

Σy= 501.2

2 .计算x2而且y2它们的和

的平方创建两个新列x而且y.求新列的和。

例如:计算x 2而且y 2它们的和
x y x2 y2
3.63 53.1 (3.63)2 = 13.18 (53.1)2 = 2 819.6
3.02 49.7 9.12 2 470.1
3.82 48.4 14.59 2 342.6
3.42 54.2 11.7 2 937.6
3.59 54.9 12.89 3 014
2.87 43.7 8.24 1 909.7
3.03 47.2 9.18 2 227.8
3.46 45.2 11.97 2 043年
3.36 54.4 11.29 2 959.4
3.3 50.4 10.89 2 540.2

Σx2= 13.18 + 9.12 + 14.59 + 11.70 + 12.89 + 8.24 + 9.18 + 11.97 + 11.29 + 10.89

Σx2= 113.05

Σy2= 2 819.6 + 2 470.1 + 2 342.6 + 2 937.6 + 3 014.0 + 1 909.7 + 2 227.8 + 2 043.0 + 2 959.4 + 2 540.2

Σy2= 25 264

第三步:计算叉乘及其和

最后一列,相乘x而且y(这叫做叉乘)求新列的和。

示例:计算叉乘及其和
x y x2 y2 xyxy
3.63 53.1 13.18 2 819.6 3.63 * 53.1 = 192.8
3.02 49.7 9.12 2 470.1 150.1
3.82 48.4 14.59 2 342.6 184.9
3.42 54.2 11.7 2 937.6 185.4
3.59 54.9 12.89 3 014 197.1
2.87 43.7 8.24 1 909.7 125.4
3.03 47.2 9.18 2 227.8 143
3.46 45.2 11.97 2 043年 156.4
3.36 54.4 11.29 2 959.4 182.8
3.3 50.4 10.89 2 540.2 166.3

Σxy= 192.8 + 150.1 + 184.9 + 185.4 + 197.1 + 125.4 + 143.0 + 156.4 + 182.8 + 166.3

Σxy= 1 684.2

第四步:计算r

使用公式和在前面步骤中计算的数字来求r

例如:计算r
N = 10

\sum{x} = 33.5

\sum{y} = 501.2

\sum{x^2} = 113.05

\sum{y^2} = 25\,264

\sum{xy} = 1\,684.2

r = \压裂{n \ {xy} -总和(\ {x})和(\ {y})总和}{% \√6 {[n \ {x ^ 2} -总和(\总和{x}) ^ 2] [n \ {y ^ 2} -总和(\总和{y}) ^ 2]}}

r = \压裂10 \{1 \,684.2}和{-(33.5)(501.2)}{% \√6 {[(10)(113.05)- (33.5)^ 2][(10)(25 \ 264)- (501.2)^ 2]}}

r = \压裂{842 - 16 16 \ \,790.2)}{% \√6 {[122.25 1 \ 130.5 - 1 \][201.4 252 \ 640 - 251 \]}}

R = \frac{51.8}{% \sqrt{11\,868.45}}

R = 0.47

Pearson相关系数的显著性检验

皮尔逊相关系数也可以用来检验两个变量之间的关系是否正确<一个href="//www.charpingshvac.com/statistics/statistical-significance/" data-wpel-link="internal">重要的.

皮尔森相关<一个href="//www.charpingshvac.com/methodology/population-vs-sample/" data-wpel-link="internal">样本是r.它是(ρ的Pearson相关系数<一个href="//www.charpingshvac.com/methodology/population-vs-sample/" data-wpel-link="internal">人口.知道r而且n(样本量),我们可以<一个href="//www.charpingshvac.com/commonly-confused-words/infer-vs-imply/" data-wpel-link="internal">推断出是否ρ明显不同于0。

  • 零假设(H0):ρ= 0
  • 备择假设(H一个):ρ≠0

来<一个href="//www.charpingshvac.com/statistics/hypothesis-testing/" data-wpel-link="internal">测试假设在美国,你可以使用R或Stata等软件,也可以按照以下三个步骤进行。

步骤1:计算t价值

计算t值(一个<一个href="//www.charpingshvac.com/statistics/test-statistic/" data-wpel-link="internal">检验统计量)用这个公式:

t = \ \{方程*}开始压裂{r}{\√6 {\ dfrac{第一轮^ 2}{n}}}{方程*}\结束

示例:计算t价值
10例新生儿体重与身高的Pearson相关系数为0.47。因为我们知道n= 10 andr= .47时,可以计算出t值:

t = \ \{方程*}开始压裂{0.47}{\√6 {\ dfrac{1 -(0.47) ^ 2}{10}}}{方程*}\结束

t = \ \{方程*}开始压裂{0.47}{\√6 {\ dfrac{1 - 0.22}{8}}}{方程*}\结束

\begin{方程*}t = \frac{0.47} {\sqrt{0.0975}} \end{方程*}

\begin{方程*}t = 1.506 \end{方程*}

步骤2:求的临界值t

你可以找到的临界值tt *)在t表格要使用表格,你需要知道三件事:

  • 的<一个href="//www.charpingshvac.com/statistics/degrees-of-freedom/" data-wpel-link="internal">自由度(df):对于Pearson相关检验,公式为dfn- 2。
  • 显著性水平(α):按照惯例,显著性水平通常是0.05。
  • 单尾或双尾:大多数情况下,双尾是相关性的合适选择。
示例:求的临界值t
在α = .05和df= 8,的临界值tt *)为1.86。

第三步:比较t值到临界值

确定是否绝对t值大于的临界值t.“绝对”的意思是如果t值是负的,你应该忽略负号。

示例:比较t值的临界值tt *
t= 1.506

t *= 1.86

t值小于的临界值t。

第四步:决定是否拒绝原假设

  • 如果t值是更大的大于临界值,则关系有统计学意义(p<α).数据允许你拒绝零假设,并为备择假设提供支持。
  • 如果t值是大于临界值,则关系无统计学意义(p>α).数据不允许你拒绝零假设也不支持备择假设。
示例:决定是否拒绝零假设
在10个新生儿的样本中,体重和身高之间的相关性t值小于的临界值t.因此,我们不要拒绝原假设为总体的Pearson相关系数(ρ)为0。体重与身高之间没有显著的关系(p> . 05)。

(请注意,10的样本量非常小。如果你增加样本量,你可能会发现一个显著的关系。)

报告皮尔逊相关系数

如果您决定包含皮尔森相关系数(r在你的论文或论文中,你应该在你的论文中报告它<一个href="//www.charpingshvac.com/dissertation/results/" data-wpel-link="internal">结果部分.如果你愿意,你可以遵循这些规则<一个href="//www.charpingshvac.com/apa-style/numbers-and-statistics/" data-wpel-link="internal">以APA风格报告统计数据:

  • 你不需要提供一个参考或公式,因为皮尔逊相关系数是一个常用的统计。
  • 你应该用斜体r当报告其值时。
  • 你不应该包括前导零(小数点前的零),因为皮尔逊相关系数不能大于1或小于负1。
  • 您应该在小数点后提供两个有效数字。

当皮尔逊相关系数被用作推断统计量(以检验关系是否显著)时,r与自由度和p价值。自由度在旁边的括号中r

例子:用APA风格报告皮尔逊相关系数
新生儿的体重和身高是中度相关的,尽管没有统计学意义,r(8) = .47,p>。。

关于皮尔逊相关系数的常见问题

皮尔森相关系数的定义是什么?

的<一个href="//www.charpingshvac.com/statistics/pearson-correlation-coefficient/" data-wpel-link="internal">皮尔逊相关系数(r)是测量线性相关性最常用的方法。它是一个介于-1和1之间的数字,用来衡量两个变量之间关系的强度和方向。

什么时候用皮尔逊相关系数?

当(1)关系是线性的,(2)两个变量都是定量的,(3)正态分布,(4)没有异常值时,您应该使用皮尔逊相关系数。

如何计算R中的皮尔逊相关系数?

您可以使用和()函数来计算<一个href="//www.charpingshvac.com/statistics/pearson-correlation-coefficient/" data-wpel-link="internal">皮尔逊相关系数要测试相关性的显著性,可以使用cor.test ()函数。

如何在Excel中计算皮尔逊相关系数?

您可以使用皮尔森()函数来计算<一个href="//www.charpingshvac.com/statistics/pearson-correlation-coefficient/" data-wpel-link="internal">皮尔逊相关系数在Excel中。如果变量位于列A和列B中,则单击任何空白单元格并键入“PEARSON(A:A,B:B)”。

没有函数可以直接检验相关性的显著性。

引用这篇Scribbr文章

如果你想引用这个来源,你可以复制和粘贴引用或点击“引用这篇Scribbr文章”按钮,自动添加到我们的免费引用生成器引用。

特尼,S.(2022, 12月5日)。Pearson相关系数(r) |指南与示例。Scribbr。检索于2022年12月14日,来自//www.charpingshvac.com/statistics/pearson-correlation-coefficient/

这篇文章有用吗?
肖恩·特尼

在他的硕士和博士期间,Shaun学习了如何将科学和统计方法应用到他的生态学研究中。现在,他喜欢教学生如何为他们自己的论文和研究项目收集和分析数据。
Baidu