缺失数据|类型,解释和Imputation

缺失的数据,或缺失值,当您没有为某些变量或参与者存储数据时,就会发生这种情况。由于数据输入不完整、设备故障、文件丢失和许多其他原因,数据可能会丢失。

在任何数据集中,通常都有一些缺失的数据。在定量研究时,缺失的值在电子表格中显示为空白单元格。

缺失数据的类型

缺失的数据为错误因为您的数据并不代表您打算测量的真实值。

丢失数据的原因很重要,需要考虑,因为它可以帮助您确定丢失数据的类型以及需要对此做些什么。

丢失的数据主要有三种类型。

类型 定义
完全随机缺失(MCAR) 缺失的数据随机分布在变量中,与其他变量无关变量
随机缺失(MAR) 缺失的数据不是随机分布的,而是由其他观察到的变量来解释的。
非随机失踪(MNAR) 缺失数据与观测值有系统差异。
例子:研究项目
你收集年终假期消费模式的数据。你调查成年人每年花多少钱给家人和朋友买礼物。

完全随机失踪

当数据完全随机丢失(MCAR)时,数据集中任何特定值丢失的概率与其他任何东西都无关。

缺失的值是随机分布的,所以它们可以来自整个值分布的任何地方。这些MCAR数据也与其他未观察到的变量无关。

例如:MCAR数据
您注意到在假日支出数据集中有几个缺失的值。有些人开始回答你的问题调查但省略了一个问题。

但是,您注意到您的数据点分布广泛,从低值到高值不等。

因此,您得出的结论是,缺失的值与任何特定的假日消费金额无关范围

如果数据看起来与特定值或其他变量无关,则通常将其视为MCAR。在实践中,很难满足这一假设,因为“真正的随机性”是罕见的。

当数据由于设备故障或丢失样本而丢失时,它们被认为是MCAR。

随机失踪

随机数据丢失(MAR)实际上是随机丢失的;这个术语有点用词不当

这种类型的缺失数据与您收集的数据系统上不同,但它可以由其他观察到的变量完全解释。

数据点缺失的可能性与另一个观测变量有关,但与该数据点本身的具体值无关。

示例:MAR数据
对一个新组重复数据收集。你注意到,18-25岁的成年人比其他年龄组的缺失值更多。

但观察18-25岁成年人的观察数据,你会注意到这些数值是广泛的传播.丢失的数据不太可能是因为特定的值本身而丢失。

相反,一些年轻人可能不太愿意透露他们的假期消费金额,原因与此无关(例如,更注重保护他们的隐私)。

失踪不是随机的

非随机数据丢失(MNAR)是由于与值本身相关的原因而丢失的。

举例:MNAR数据
在新的数据集中,您还注意到较少的低值。一些收入较低的参与者避免报告他们的假期支出金额因为它们很低。

寻找这种类型的缺失数据很重要,因为您可能缺少来自示例中关键子组的数据。你的样本可能最终不能代表你的人口

磨损的偏见

纵向研究,损耗偏差可以是MNAR数据的一种形式。磨损的偏见意味着一些参与者比其他人更有可能退出。

例如,在长期的医学研究中,一些参与者可能会退出,因为随着研究的继续,他们的身体越来越不舒服。他们的数据是MNAR,因为他们的健康状况更差,所以你最终的数据集可能只包括健康的人,你会错过重要的数据。

丢失数据有问题吗?

缺失数据是有问题的,因为根据类型的不同,它们有时会导致抽样偏差.这意味着你的结果可能不是可概括的在你的研究之外,因为你的数据来自一个不具代表性的样本

在实践中,您通常可以考虑两种类型的缺失数据可忽略的因为缺失的数据与观测值没有系统性差异:

  • MCAR数据
  • 3月的数据

对于这两种数据类型,数据点缺失的可能性与值本身无关。因此,你缺失的值不太可能与你观测到的值有显著差异。

另一方面,如果缺失的数据与观测到的数据有系统性差异,那么数据集就有偏差。MNAR数据被调用不可忽略因为这个原因。

校对对你的论文有什么好处?

Scribbr编辑不仅纠正语法和拼写错误,还通过确保你的论文没有模糊的语言、多余的单词和尴尬的措辞来加强你的写作。

参见编辑示例

如何防止数据丢失

缺失的数据往往来自磨损的偏见nonresponse或设计糟糕的研究方案。当设计你的学习,这是一个很好的实践,让您的参与者容易提供数据。

下面是一些帮助你减少丢失数据的技巧:

  • 限制随访次数
  • 尽量减少收集的数据
  • 使数据收集表单对用户友好
  • 使用数据验证技术
  • 提供优惠政策

收集数据后,小心地存储它们是很重要的,要有多个备份。

如何处理缺失值

要整理数据,您的选项通常包括接受、删除或重新创建丢失的数据。

您应该根据对数据丢失原因的评估,考虑如何处理每一种数据丢失情况。

  • 这些数据丢失是由于随机原因还是非随机原因?
  • 数据丢失是因为它们表示零或空值吗?
  • 这个问题或测量方法设计得很糟糕吗?

您的数据可以被接受,如果是MCAR或mar,也可以保持原样。但是,MNAR数据可能需要更复杂的处理。

验收

最保守的选择包括接受丢失的数据:您只需将这些单元格留空。

当您认为您正在处理MCAR或MAR值时,最好这样做。当你有一个小样本时,你会想要保存尽可能多的数据,因为任何数据删除都会影响你的统计能力

你也可以用“N/A”(“不适用”的缩写)标签重新编码所有缺失的值,以使它们在整个数据集中保持一致。

这些操作可以帮助您保留来自尽可能多的研究对象的数据,并且几乎没有变化。

删除

您可以删除缺失的数据统计分析使用列表或成对删除。

Listwise删除

Listwise删除意味着删除数据集中任何变量数据缺失的所有案例(参与者)的数据。您将拥有一个包含所有参与者的完整数据集。

这种技术的一个缺点是,你最终可能会得到一个更小的和/或有偏见的样本。如果某些数据丢失了大量数据变量或者具体来说,提供数据的参与者可能与不提供数据的参与者存在显著差异。

你的样本可能有偏差,因为它不能充分代表人口

示例:按顺序删除
您决定从调查数据集中删除所有数据缺失的参与者。这将样本从114个减少到77个。

你注意到,大多数缺少数据的参与者都没有回答一个关于他们观点的具体问题。其中许多参与者也是女性,所以你的样本现在主要由男性组成。

成对删除

成对删除让您保留更多的数据,只需删除任何分析中缺失的数据点。它可以保存更多的数据,因为包括了案例中的所有可用数据。

这也意味着每个变量的样本量不均匀。但当你有一个小样本或一些变量的缺失值的大比例时,它是有帮助的。

当您对多个变量进行分析时,例如a相关,只包含每个变量数据完整的案例(参与者)。

示例:成对删除
您决定只删除缺失的值,同时保留这些参与者的其他数据点。这并不会减少总体样本量。

  • 12人没有回答关于性别的问题,将变量“性别”的样本量从114人减少到102人。
  • 有3人没有回答关于他们年龄的问题,将变量“年龄”的样本量从114人减少到11人。

这样你可以保留更多的值,但是样本大小现在随着变量的不同而不同。

归责

归责意思是根据合理的估计将缺失的值替换为另一个值。您可以使用其他数据为更完整的数据集重新创建缺失的值。

您可以从几种imputation方法中进行选择。

属性替换缺失值是最简单的方法的意思是中位数值。

Hot-deck归责

hot-deck归责,将每个缺失的值替换为数据集中类似案例或参与者的现有值。对于每个缺失值的情况,缺失值将被来自所谓“供体”的值替换,该值与基于其他变量的数据的情况类似。

示例:热甲板归责
在一项调查中,你要求参与者回答他们对一款新的购物应用程序的评分,从1到5。你注意到有两个参与者跳过了问题3,所以这些单元格是空的。

您可以根据其他变量对数据进行排序,并搜索与缺少值的参与者相比,对其他问题回答相似的参与者。

您从捐赠者那里获得问题3的答案,并使用它来填充每个缺失值的空白单元格。

Cold-deck归责

另外,在cold-deck归责,将缺失的值替换为其他数据集中类似情况下的现有值。新值来自一个不相关的样本。

示例:冷甲板归责
不是用来自相同样本参与者的答案替换缺失的值,而是打开来自同事的不同数据集。他们进行了类似的调查,但使用了不同的样本。

您可以搜索对其他问题的回答与缺少值的参与者相似的参与者。

您从另一个数据集中获取问题3的答案,并使用它填充每个缺失值的空白单元格。

小心使用imputation

归因是一项复杂的任务,因为你必须权衡利弊。

虽然保留了所有数据,但此方法可以创建研究偏见并导致不准确的结果。您永远无法确定替换后的值是否准确地反映了将要观察或回答的内容。这就是为什么最好谨慎地使用归因。

关于丢失数据的常见问题

什么是缺失的数据?

缺失的数据,或丢失值,当您没有存储数据时就会发生变量或参与者。

在任何数据集中,通常都有一些缺失的数据。在定量研究时,缺失的值在电子表格中显示为空白单元格。

为什么缺失的数据很重要?

缺失的数据很重要,因为根据类型的不同,它们有时会影响你的结果。这意味着你的结果可能不是可概括的在你的研究之外,因为你的数据来自典型的样本

如何处理丢失的数据?

整理你的缺失的数据,您的选择通常包括接受、删除或重新创建丢失的数据。

  • 验收:数据保持原样
  • 逐级或成对删除:从分析中删除丢失数据的所有案例(参与者)
  • 归责:您可以使用其他数据来填充缺失的数据
丢失的数据类型是什么?

主要有三种类型缺失的数据

完全随机缺失(MCAR)数据是随机分布在各个变量之间且与其他变量无关的数据变量

随机缺失(MAR)数据不是随机分布的,而是由其他观测变量解释的。

非随机缺失(MNAR)数据与观测值有系统差异。

引用这篇Scribbr文章

如果你想引用这个来源,你可以复制和粘贴引用或点击“引用这篇Scribbr文章”按钮,自动添加到我们的免费引用生成器引用。

班达里,P.(2022年11月11日)。缺失数据|类型,解释和Imputation。Scribbr。检索于2022年12月14日,来自//www.charpingshvac.com/statistics/missing-data/

这篇文章有用吗?
Pritha班达里

普里塔拥有英语、心理学和认知神经科学方面的学术背景。作为一名跨学科研究人员,她喜欢为学生和学者撰写文章,解释棘手的研究概念。
Baidu