简单线性回归|一个简单的介绍和例子

简单线性回归是用来估计的关系两个定量变量.当你想知道以下情况时,你可以使用简单线性回归:

  1. 两个变量之间的关系有多强(例如,降雨量和土壤侵蚀之间的关系)。
  2. 因变量在一定值处的值独立变量(例如,在一定降雨水平下的土壤侵蚀量)。

回归模型通过拟合观察到的数据来描述变量之间的关系。线性回归模型使用直线,而逻辑回归和非线性回归模型使用曲线。回归可以让你估计a因变量随着自变量的变化而变化。

简单线性回归例子
你是一名社会研究者,对收入和幸福之间的关系感兴趣。你调查了500个收入在1.5万到7.5万美元之间的人,让他们把自己的幸福指数从1到10分打分。

你的自变量(收入)和因变量(幸福)都是定量的,所以你可以做一个回归分析,看看它们之间是否有线性关系。

如果你有一个以上的自变量,使用多元线性回归代替。

简单线性回归的假设

简单线性回归是参数检验,这意味着它对数据做出了某些假设。这些假设是:

  1. 方差齐性(同方差):我们预测的误差大小在自变量的值之间没有显著变化。
  2. 观察的独立性:数据集中的观测数据采用统计有效的方法收集抽样方法,并且观察结果之间没有隐藏的关系。
  3. 正常:数据遵循a正态分布

线性回归做了一个额外的假设:

  1. 自变量和因变量之间的关系是线性:通过数据点的最佳拟合线是一条直线(而不是曲线或某种分组因子)。

如果你的数据不符合同方差或正态性的假设,你可以使用非参数检验相反,比如斯皮尔曼等级测试。

示例:不符合假设的数据
您认为在美国,腌肉消费量与结直肠癌发病率之间存在线性关系。然而,您发现高肉类消费量比低肉类消费量收集了更多的数据,其结果是,在低范围内对癌症发病率的估计比在高范围内的估计有更多的变化。因为数据违反了同方差的假设,所以它不适用于回归,但您可以执行斯皮尔曼秩检验。

如果你的数据违反了观察的独立性假设(例如,如果观察是随时间重复的),你可能能够执行一个线性混合效应模型,以解释数据中的额外结构。

如何进行简单的线性回归

简单线性回归公式

简单线性回归的公式为:

y = {\beta_0} + {\beta_1{X}} + {\ ε}

  • y为因变量(y)对于自变量的任何给定值(x).
  • B0拦截的预测值yx是0。
  • B1回归系数-我们期望的是多少y改变…x增加。
  • x自变量(我们期望的变量)是否有影响y).
  • e错误或者说回归系数的估计值有多少变化。

线性回归通过搜索回归系数(B1),使模型的总误差(e)最小。

而你可以进行线性回归用手这是一个繁琐的过程,所以大多数人使用统计程序来帮助他们快速分析数据。

R中的简单线性回归

R是一个免费的、功能强大的、广泛使用的统计程序。下载数据集,使用我们的收入和幸福的例子自己尝试一下。

简单线性回归数据集(.csv)

载入收入。然后运行以下命令,生成一个描述收入和幸福之间关系的线性模型:

简单线性回归的R代码
income.happiness.lm <- lm(happiness ~ income, data = income.data)

这段代码使用您收集的数据数据=收入并计算自变量的影响收入对因变量有什么影响幸福利用线性模型的方程:lm ()

要了解更多,请遵循我们完整的分步指南R的线性回归

防止抄袭,运行免费检查。

免费尝试

解读结果

要查看模型的结果,可以使用总结()R中的函数:

总结(income.happiness.lm)

这个函数从线性模型中获取最重要的参数,并将它们放入一个表中,它看起来像这样:

简单线性回归汇总输出R

这个输出表首先重复了用于生成结果的公式(' Call '),然后总结了模型残差(' residuals '),这让人们了解模型与真实数据的拟合程度。

接下来是“系数”表。第一行给出y截距的估计值,第二行给出模型的回归系数。

表的第1行被标记(拦截).这是回归方程的y轴截距,值为0.20。如果你想预测你观察到的收入范围内的幸福值,你可以把它代入你的回归方程:

幸福0.20+ 0.71*收入±0.018

“系数”表中的下一行是收入。这一行描述了收入对幸福感的估计影响:

估计列是估计的效果,也叫回归系数或者r2价值。表中的数字(0.713)告诉我们,收入每增加一个单位(其中一个单位收入= 10,000),报告的幸福指数就会相应增加0.71个单位(其中幸福指数从1到10)。

性病。错误列显示标准错误估计。这个数字表明,我们对收入和幸福之间关系的估计存在多大的差异。

t值列显示检验统计量.除非另有指定,否则线性回归中使用的检验统计量是t价值来自两面t测验.检验统计量越大,我们的结果偶然出现的可能性就越小。

Pr(>| t |)列显示p价值.这个数字告诉我们,我们有多大可能看到收入对幸福的估计影响零假设没有任何效果是真的。

因为p价值如此之低p< 0.001),我们可以拒绝零假设得出收入有a统计上显著对幸福感的影响。

模型摘要的最后三行是关于整个模型的统计信息。这里要注意的最重要的事情是p模型的值。这里的意义是(p< 0.001),这意味着该模型很适合观测到的数据。

展示结果

当报告你的结果时,包括估计的效果(即回归系数),估计的标准误差,和p价值。你还应该解释你的数字,让你的读者清楚你的回归系数的含义:

我们发现了一个显著的关系(p收入和幸福之间的关系(R2= 0.71±0.018),收入每增加1万,幸福感就增加0.71个单位。

在结果中加入图表也会很有帮助。对于一个简单的线性回归,你可以简单地在x轴和y轴上绘制观察结果,然后包括回归线和回归函数:

简单线性回归图

您能否预测超出数据范围的值?

不!我们常说,回归模型可以用来预测因变量在自变量的一定值处的值。然而,这只适用于范围我们实际测量了响应的值。

我们可以用我们的收入和幸福回归分析作为一个例子。在15000到75000之间,我们发现了一个r2为0.73±0.0193。但如果我们对年收入在7.5万到15万之间的人做第二次调查呢?

R中数据的外推

r2因为收入和幸福之间的关系现在是0.21,或者说收入每增加1万个单位,报告的幸福就增加0.21个单位。虽然这种关系在统计上仍然显著(p<0.001),但斜率比以前小得多。

R图数据外推

如果我们没有测量这一群体,而是将收入从1.5万至7.5万推到7万至15万呢?

你可以看到,如果我们简单地从15 - 75万的收入数据中推断,我们会高估75 - 15万收入范围内的人的幸福。

曲线数据线

如果我们用曲线来拟合数据,它似乎更符合实际模式。

看起来幸福感在高收入时趋于平稳,所以我们不能用从低收入数据中计算出的回归线来预测高收入水平时的幸福感。

即使当您在数据中看到一个强大的模式时,您也无法确定该模式是否继续超出您实际测量的值范围。因此,重要的是要避免超出数据实际告诉你的内容的推断。

简单线性回归的常见问题

什么是回归模型?

回归模型是一种统计模型,用于估计一个依赖项之间的关系变量和一个或多个自变量使用一条线(或在两个或多个自变量的情况下一个平面)。

当因变量是定量的时,可以使用回归模型,但在逻辑回归的情况下,因变量是二进制的。

什么是简单线性回归?

简单线性回归是一种回归模型,用一条直线估计一个自变量和一个因变量之间的关系。这两个变量应该是定量的。

例如,温度和水银在温度计中的膨胀之间的关系可以用一条直线来建模:随着温度的升高,水银膨胀。这种线性关系是如此确定,以至于我们可以用水银温度计来测量温度。

线性回归模型中的误差是如何计算的?

线性回归最常使用均方误差(MSE)来计算模型的误差。MSE的计算方法为:

  1. 测量在x的每个值处观测到的y值与预测y值的距离;
  2. 将这些距离平方;
  3. 计算的意思是每个距离的平方。

线性回归通过寻找导致最小MSE的回归系数来拟合数据的直线。

引用这篇Scribbr文章

如果你想引用这个来源,你可以复制和粘贴引用或点击“引用这篇Scribbr文章”按钮,自动添加到我们的免费引用生成器引用。

贝文斯,R.(2022年11月15日)。简单线性回归|一个简单的介绍和例子。Scribbr。检索于2022年12月18日,来自//www.charpingshvac.com/statistics/simple-linear-regression/

这篇文章有用吗?
丽贝卡·贝

丽贝卡正在攻读土壤生态学博士学位,空闲时间用来写作。她很高兴能和大家一起研究统计数据。
Baidu