什么是被忽略的变量偏差?|定义和示例

忽略变量偏差当统计模型未能包含一个或多个相关时发生变量.换句话说,这意味着你在分析中遗漏了一个重要因素。

示例:省略变量偏差
假设你想调查教育对人们的工资.为了正确地分析这种影响,您还应该包括能力在你的模型中。能力使学生在学校比同龄人更成功,这可能导致毕业后找到更好的工作和更高的薪水。

如果你没有一个可靠的能力衡量标准,你可能不得不将它排除在你的模型之外,尽管你知道它是一个重要的变量。

在这种情况下,排除能力会导致遗漏变量偏差。这可能会导致高估或低估其他变量的影响。

结果,该模型错误地将缺失变量的影响归因于包含的变量。排除重要变量可以限制有效性你的研究结果。

什么是被省略的变量?

省略的变量是a混杂变量与一项研究的假定原因和假定结果相关的。换句话说,它与自变量和因变量

示例:省略变量
让我们回顾一下教育对工资影响的例子。

这里的自变量是教育。然而,薪水也可能与能力有关,这是你之前决定排除的因素。反过来,能力也可能与一个人获得的教育水平有关,因为能力强的人可能会接受更高的教育。

省略的变量(能力)会影响你对教育(自变量)和收入(因变量)的分析。

虽然可以忽略某个变量,因为您没有意识到它的存在,但也可以忽略您无法测量的变量,即使您意识到它们的存在。

什么是遗漏变量偏差?

省略变量偏差发生在线性回归分析当一个或多个相关的自变量不包括在你的回归模型。

回归模型描述了一个或多个自变量(也称为预测变量、协变量或变量)之间的关系解释变量)和因变量(通常称为响应变量或目标变量)。

因为省略的变量是隐藏的或未被观察到的,所以它不会被考虑到分析中,从而影响结果。

如果省略的变量是,这可能会使系数产生偏差相关用:

  1. 因变量
  2. 一个或多个其他自变量
示例:偏系数
让我们考虑一下教育对工资影响的简单线性回归公式:

工资= β01* Educ + ε

地点:

  • 工资是以美元为单位的工资(因变量)
  • Educ为完成教育的年限(自变量)
  • β0是截距,是Educ为0时的Salary的预测值
  • β1是回归系数,也就是我们期望工资随着教育水平的提高而变化的程度。
  • ε是误差项,表示我们对回归系数的估计有多少变化。

正如我们所看到的,能力是这个模型中被忽略的变量——它不存在,但它不应该存在。能力与工资和教育程度都有关系。由于它没有包含在我们的回归模型中,我们得出的结论是它“隐藏”在某个地方。但是在哪里?

为什么省略变量偏差是一个问题?

一个被忽略的变量是内生性的来源。内生性发生在误差项中的变量也是相关用一个自变量。

当这种情况发生时,来自被忽略变量的因果影响就会与系数在与它相关的变量上。这反过来又削弱了我们推断出因果关系严重影响我们的结果。

例如:内生性
回到我们的例子,由于内生性,能力在误差项中。它与自变量相关,因为能力高的人也倾向于获得更高的教育水平。

由于能力不在回归模型中,我们对β的估计1会吸收一些能力的效果。

这个估计现在是有偏见的,所以我们不能再对教育做出因果关系的断言。

的变量可能会导致高估(向上偏倚)或低估(向下偏倚)系数自变量的。由于系数变得不可靠,回归模型也变得不可靠。

如何处理遗漏变量偏差

回归模型不能总是完美地预测因变量的值。因此,每个回归模型都有一个或多个被忽略的变量。虽然不能完全避免,但您可以采取一些步骤来减轻被忽略的变量偏差。

  • 如果所需要的数据没有,像在能力的情况下,可以使用控制变量.以工资为例,控制在理论上是影响工资的变量,比如工作经验的年数。
  • 如果您没有这些数据,请为省略的变量使用代理。这些变量与省略的变量非常相似,可以让您了解其值,但您可以测量。例如,你可以用智商测试来代表一个人的能力。
  • 如果您无法解决研究偏见,试着预测一下你的估计偏向哪个方向。这被称为“签名”偏差。你可以把它写成正号或负号,这对你很有帮助估计忽略的变量偏差

估计遗漏变量偏差

不需要深入高等代数,我们可以使用逻辑思维来预测省略变量的方向。通过这种方式,我们可以确定我们是否高估或低估了我们在回归模型中包含的变量的影响。

下表总结了忽略变量偏差的方向。偏差的符号基于被省略变量与模型中变量之间关系的符号。

我们假设:

Y是因变量
一个是一个自变量
B是另一个自变量,也就是省略的变量。

A和B正相关 A和B是负相关的
B对Y有积极的影响 正偏置 负偏压
B对Y有负面影响 负偏压 正偏置

请注意,在正面偏见下,我们倾向于高估,而在负面偏见下,我们倾向于低估。

示例:估计忽略变量偏差
我们现在可以对能力如何影响教育,以及能力如何影响工资做出逻辑推测。

提醒一下,我们现在的回归是:

工资= β01* Educ + ε

而它应该是:

工资= β01* Educ + β2* Abil +ε

我们认为教育程度越高,工资就越高。所以我们可以预测β1有一个正号,即β1> 0。

我们也会期望能力越高,薪水越高。所以我们可以预测β2也有一个正号,即β2> 0。

同时,能力越高,完成的教育水平越高。因此,我们可以得出:

  1. 工资与教育程度呈正相关
  2. 学历与能力呈正相关

这对我们的回归分析意味着什么?我们知道教育有可能带来更高的薪水。与此同时,受教育程度越高的人能力也越强。

当忽略能力变量时,我们看到教育变量实际上也可以解释能力的影响,而不仅仅是教育。

因此,β1有偏见。更具体地说,它存在向上偏倚,因为能力和教育对工资都有积极的影响。不考虑能力,可以让教育系数吸收能力的部分积极作用。

由于能力可能与工资和教育都呈正相关,我们可以得出结论,在我们的分析中,教育对工资的影响被高估了。

其他类型的研究偏见

常见问题

如何防止遗漏变量偏差干扰研究?

忽略变量偏差常见于线性回归因为通常不可能在模型中包含所有相关变量。你可以通过以下方法减轻忽略变量偏差的影响:

用逻辑来预测你是否高估或低估了的影响变量(年代)包括在你的回归模型中

要发生遗漏的变量偏差,必须满足哪两个要求?

忽略变量偏差满足两个需求时发生:

  1. 省略的变量与因变量
  2. 省略的变量与一个或多个其他变量有关独立变量
为什么忽略变量偏差很重要?

忽略变量偏差这很重要,因为它会导致研究人员通过将缺失变量的影响归因于统计模型中包含的变量的影响而得出错误的结论。

本文的来源

我们强烈鼓励学生在他们的工作中使用资源。你可以引用我们的文章(APA Style)或深入研究下面的文章。

这篇Scribbr文章

Nikolopoulou, K.(2022年12月05日)。什么是被忽略的变量偏差?|定义和示例。Scribbr。检索于2022年12月14日,来自//www.charpingshvac.com/research-bias/omitted-variable-bias/

来源

Lopes, H. F.(2016, 9月21日)。省略变量偏差:简单情况.Hedibert。http://hedibert.org/wp-content/uploads/2016/09/Bias-omittedvariable.pdf

经理回归4.1:忽略变量偏差.(2019年6月29日)。(视频)。YouTube。https://www.youtube.com/watch?v=pFR76qpt0Lk

这篇文章有用吗?
Kassiani Nikolopoulou

Kassiani拥有传播学、生物经济和循环经济的学术背景。作为一名前记者,她喜欢将复杂的科学信息转化为易于获取的文章,以帮助学生。
Baidu