多元线性回归|快速指南(示例)

回归模型通过拟合观测数据来描述变量之间的关系。回归允许您估计因变量如何随着自变量的变化而变化。

多元线性回归是用来估计的关系两个或多个自变量而且一个因变量.你可以使用多元线性回归,当你想知道:

  1. 两个或多个之间的关系有多强独立变量还有一个因变量(例如降雨量、温度和施肥量如何影响作物生长)。
  2. 的值因变量在自变量的某个值上(例如,在降雨量、温度和肥料添加量的一定水平下,作物的预期产量)。
多元线性回归例子
你是一名公共卫生研究员,对影响心脏病的社会因素感兴趣。你调查收集了500个城镇的数据,包括每个城镇吸烟的人口比例,每个城镇骑自行车上班的人口比例,以及每个城镇患心脏病的人口比例。

因为你有两个自变量和一个因变量,所有的变量都是定量的,可以用多元线性回归来分析它们之间的关系。

多元线性回归的假设

多元线性回归的假设和简单线性回归

方差齐性(同方差):我们预测的误差大小在自变量的值之间没有显著变化。

观察的独立性:数据集中的观测数据采用统计有效的方法收集抽样方法,变量之间没有隐藏的关系。

在多元线性回归中,有可能有些自变量实际上是相互关联的,因此在建立回归模型之前检查这些自变量是很重要的。如果两个自变量的相关性太大(r2 > ~0.6),那么在回归模型中只应该使用其中一个。

正常:数据遵循a正态分布

线性:通过数据点的最佳拟合线是一条直线,而不是曲线或某种分组因子。

如何进行多元线性回归

多元线性回归公式

多元线性回归的公式为:

y = {\ beta_0} + {\ beta_1 {X_1 }} + ... + {{\ beta_n {X_n}} +{\ε}

  • y =因变量的预测值
  • B_0 = y轴截距(其他参数均为0时的y值)
  • B_1X_1 =回归系数(B_1 )的第一个自变量(X_1 )(也就是自变量值的增加对y预测值的影响)
  • =无论你测试多少个自变量,都做同样的事情
  • B_nX_n =最后一个自变量的回归系数
  • \ε =模型误差(也就是在我们的估计中有多少变化)y

为了找到每个自变量的最佳拟合直线,多元线性回归计算了三件事:

  • 导致模型总体误差最小的回归系数。
  • t整体模型的统计。
  • 相关联的p价值(这有多大可能t统计数据可能是偶然出现的,如果零假设自变量和因变量之间没有关系是正确的)。

然后计算t统计和p模型中每个回归系数的值。

R的多元线性回归

虽然可以手工进行多元线性回归,但更常见的是通过统计软件来完成。在我们的例子中,我们将使用R语言,因为它是免费的、强大的,并且可以广泛使用。下载样例数据集,自己尝试一下。

多元线性回归数据集(.csv)

负荷心。data数据集到您的R环境中,并运行以下代码:

多元线性回归的R代码
heart.disease.lm < - lm(心。疾病~骑自行车+吸烟,data =心脏。data)

这段代码接受数据集heart.data然后计算自变量的影响骑自行车而且吸烟因变量是多少心脏病利用线性模型的方程:lm ()

通过遵循完整的分步指南来了解更多信息R的线性回归

以下是学生们喜欢Scribbr校对服务的原因

发现校对和编辑

解读结果

要查看模型的结果,可以使用总结()功能:

总结(heart.disease.lm)

这个函数从线性模型中获取最重要的参数,并将它们放入如下表:

R多元线性回归汇总输出

摘要首先打印出公式(' Call '),然后是模型残差(' residuals ')。如果残差大致以零为中心,且两边的分布相似,如上图所示(中位数0.03,最小值和最大值在-2和2左右),则模型可能符合异方差假设。

接下来是模型的回归系数(“系数”)。系数表的第一行是标签(截距)-这是回归方程的y截距。了解估计截距有助于将其代入回归方程并预测因变量的值:

心脏病= 15 +(-0.2*骑自行车)+(0.178*吸烟)±e

在这个输出表中需要注意的最重要的事情是接下来的两个表——自变量的估计值。

估计列是估计的效果,也叫回归系数或者r2价值。表中的估计数字告诉我们,骑自行车上班的人每增加1%,心脏病的发病率就会降低0.2%;吸烟人数每增加1%,心脏病的发病率就会增加0.17%。

Std.error列显示标准错误估计。这个数字显示了回归系数估计值周围有多少变化。

t值列显示检验统计量.除非另有说明,线性回归中使用的检验统计量为t价值来自两面t测验.测试统计量越大,结果偶然出现的可能性就越小。

Pr(> | t |)列显示p价值.由此可见计算出的可能性有多大t如果参数无影响的零假设为真,则值将偶然出现。

因为这些值非常低(p在两种情况下都< 0.001),我们可以拒绝原假设并得出结论,骑自行车上班和吸烟都可能影响心脏病的发病率。

展示结果

当报告你的结果时,包括估计的效果(即回归系数),估计的标准误差,和p价值。你还应该解释你的数字,让你的读者清楚地知道回归系数的含义。

在我们对500个城镇的调查中,我们发现骑自行车上班的频率与心脏病的频率、吸烟的频率和心脏病的频率之间存在显著的关系。p< 0.001)。具体来说,我们发现,骑自行车的人每增加1%,心脏病的发病率就会下降0.2%(±0.0014),吸烟的人每增加1%,心脏病的发病率就会增加0.178%(±0.0035)。

在图表中可视化结果

在结果中加入图表也会很有帮助。多元线性回归在某种程度上比简单线性回归更复杂,因为在二维图中有更多的参数。

然而,有一些方法可以显示包含多个自变量对因变量的影响的结果,即使实际上只能在x轴上绘制一个自变量。

R图的多元回归

在这里,我们计算了因变量(心脏病)在骑行上班人数百分比的整个观察值范围内的预测值。

为了将吸烟对自变量的影响包括在内,我们计算了这些预测值,同时将吸烟保持在最小值不变,的意思是,以及观察到的最大吸烟率。

关于多元线性回归的常见问题

什么是回归模型?

回归模型是一种统计模型,用于估计一个依赖项之间的关系变量和一个或多个自变量使用一条线(或在两个或多个自变量的情况下一个平面)。

当因变量是定量的时,可以使用回归模型,但在逻辑回归的情况下,因变量是二进制的。

什么是多元线性回归?

多元线性回归是一种回归模型,用一条直线估计一个定量因变量和两个或多个自变量之间的关系。

线性回归模型中的误差是如何计算的?

线性回归最常使用均方误差(MSE)来计算模型的误差。MSE的计算方法为:

  1. 测量在x的每个值处观测到的y值与预测y值的距离;
  2. 将这些距离平方;
  3. 计算的意思是每个距离的平方。

线性回归通过寻找导致最小MSE的回归系数来拟合数据的直线。

引用这篇Scribbr文章

如果你想引用这个来源,你可以复制和粘贴引用或点击“引用这篇Scribbr文章”按钮,自动添加到我们的免费引用生成器引用。

贝文斯,R.(2022年11月15日)。多元线性回归|快速指南(示例)。Scribbr。检索于2022年12月18日,来自//www.charpingshvac.com/statistics/multiple-linear-regression/

这篇文章有用吗?
丽贝卡·贝

丽贝卡正在攻读土壤生态学博士学位,空闲时间用来写作。她很高兴能和大家一起研究统计数据。
Baidu