简单线性回归|一个简单的介绍和例子
简单线性回归是用来估计的关系两个定量变量.当你想知道以下情况时,你可以使用简单线性回归:
- 两个变量之间的关系有多强(例如,降雨量和土壤侵蚀之间的关系)。
- 因变量在一定值处的值独立变量(例如,在一定降雨水平下的土壤侵蚀量)。
回归模型通过拟合观察到的数据来描述变量之间的关系。线性回归模型使用直线,而逻辑回归和非线性回归模型使用曲线。回归可以让你估计a因变量随着自变量的变化而变化。
如果你有一个以上的自变量,使用多元线性回归代替。
简单线性回归的假设
简单线性回归是参数检验,这意味着它对数据做出了某些假设。这些假设是:
线性回归做了一个额外的假设:
- 自变量和因变量之间的关系是线性:通过数据点的最佳拟合线是一条直线(而不是曲线或某种分组因子)。
如果你的数据不符合同方差或正态性的假设,你可以使用非参数检验相反,比如斯皮尔曼等级测试。
如果你的数据违反了观察的独立性假设(例如,如果观察是随时间重复的),你可能能够执行一个线性混合效应模型,以解释数据中的额外结构。
如何进行简单的线性回归
简单线性回归公式
简单线性回归的公式为:
- y为因变量(y)对于自变量的任何给定值(x).
- B0是拦截的预测值y当x是0。
- B1回归系数-我们期望的是多少y改变…x增加。
- x自变量(我们期望的变量)是否有影响y).
- e是错误或者说回归系数的估计值有多少变化。
线性回归通过搜索回归系数(B1),使模型的总误差(e)最小。
而你可以进行线性回归用手这是一个繁琐的过程,所以大多数人使用统计程序来帮助他们快速分析数据。
R中的简单线性回归
R是一个免费的、功能强大的、广泛使用的统计程序。下载数据集,使用我们的收入和幸福的例子自己尝试一下。
载入收入。然后运行以下命令,生成一个描述收入和幸福之间关系的线性模型:
这段代码使用您收集的数据数据=收入
并计算自变量的影响收入
对因变量有什么影响幸福
利用线性模型的方程:lm ()
.
要了解更多,请遵循我们完整的分步指南R的线性回归.
解读结果
要查看模型的结果,可以使用总结()
R中的函数:
这个函数从线性模型中获取最重要的参数,并将它们放入一个表中,它看起来像这样:
这个输出表首先重复了用于生成结果的公式(' Call '),然后总结了模型残差(' residuals '),这让人们了解模型与真实数据的拟合程度。
接下来是“系数”表。第一行给出y截距的估计值,第二行给出模型的回归系数。
表的第1行被标记(拦截)
.这是回归方程的y轴截距,值为0.20。如果你想预测你观察到的收入范围内的幸福值,你可以把它代入你的回归方程:
“系数”表中的下一行是收入。这一行描述了收入对幸福感的估计影响:
的估计
列是估计的效果,也叫回归系数或者r2价值。表中的数字(0.713)告诉我们,收入每增加一个单位(其中一个单位收入= 10,000),报告的幸福指数就会相应增加0.71个单位(其中幸福指数从1到10)。
的性病。错误
列显示标准错误估计。这个数字表明,我们对收入和幸福之间关系的估计存在多大的差异。
的t值
列显示检验统计量.除非另有指定,否则线性回归中使用的检验统计量是t价值来自两面t测验.检验统计量越大,我们的结果偶然出现的可能性就越小。
的Pr(>| t |)
列显示p价值.这个数字告诉我们,我们有多大可能看到收入对幸福的估计影响零假设没有任何效果是真的。
因为p价值如此之低(p< 0.001),我们可以拒绝零假设得出收入有a统计上显著对幸福感的影响。
模型摘要的最后三行是关于整个模型的统计信息。这里要注意的最重要的事情是p模型的值。这里的意义是(p< 0.001),这意味着该模型很适合观测到的数据。
展示结果
当报告你的结果时,包括估计的效果(即回归系数),估计的标准误差,和p价值。你还应该解释你的数字,让你的读者清楚你的回归系数的含义:
在结果中加入图表也会很有帮助。对于一个简单的线性回归,你可以简单地在x轴和y轴上绘制观察结果,然后包括回归线和回归函数:
您能否预测超出数据范围的值?
不!我们常说,回归模型可以用来预测因变量在自变量的一定值处的值。然而,这只适用于范围我们实际测量了响应的值。
我们可以用我们的收入和幸福回归分析作为一个例子。在15000到75000之间,我们发现了一个r2为0.73±0.0193。但如果我们对年收入在7.5万到15万之间的人做第二次调查呢?
r2因为收入和幸福之间的关系现在是0.21,或者说收入每增加1万个单位,报告的幸福就增加0.21个单位。虽然这种关系在统计上仍然显著(p<0.001),但斜率比以前小得多。
如果我们没有测量这一群体,而是将收入从1.5万至7.5万推到7万至15万呢?
你可以看到,如果我们简单地从15 - 75万的收入数据中推断,我们会高估75 - 15万收入范围内的人的幸福。
如果我们用曲线来拟合数据,它似乎更符合实际模式。
看起来幸福感在高收入时趋于平稳,所以我们不能用从低收入数据中计算出的回归线来预测高收入水平时的幸福感。
即使当您在数据中看到一个强大的模式时,您也无法确定该模式是否继续超出您实际测量的值范围。因此,重要的是要避免超出数据实际告诉你的内容的推断。
简单线性回归的常见问题
- 什么是回归模型?
-
回归模型是一种统计模型,用于估计一个依赖项之间的关系变量和一个或多个自变量使用一条线(或在两个或多个自变量的情况下一个平面)。
当因变量是定量的时,可以使用回归模型,但在逻辑回归的情况下,因变量是二进制的。
引用这篇Scribbr文章
如果你想引用这个来源,你可以复制和粘贴引用或点击“引用这篇Scribbr文章”按钮,自动添加到我们的免费引用生成器引用。