缺失数据|类型,解释和Imputation
缺失的数据,或缺失值,当您没有为某些变量或参与者存储数据时,就会发生这种情况。由于数据输入不完整、设备故障、文件丢失和许多其他原因,数据可能会丢失。
在任何数据集中,通常都有一些缺失的数据。在定量研究时,缺失的值在电子表格中显示为空白单元格。
缺失数据的类型
缺失的数据为错误因为您的数据并不代表您打算测量的真实值。
丢失数据的原因很重要,需要考虑,因为它可以帮助您确定丢失数据的类型以及需要对此做些什么。
丢失的数据主要有三种类型。
类型 | 定义 |
---|---|
完全随机缺失(MCAR) | 缺失的数据随机分布在变量中,与其他变量无关变量. |
随机缺失(MAR) | 缺失的数据不是随机分布的,而是由其他观察到的变量来解释的。 |
非随机失踪(MNAR) | 缺失数据与观测值有系统差异。 |
完全随机失踪
当数据完全随机丢失(MCAR)时,数据集中任何特定值丢失的概率与其他任何东西都无关。
缺失的值是随机分布的,所以它们可以来自整个值分布的任何地方。这些MCAR数据也与其他未观察到的变量无关。
如果数据看起来与特定值或其他变量无关,则通常将其视为MCAR。在实践中,很难满足这一假设,因为“真正的随机性”是罕见的。
当数据由于设备故障或丢失样本而丢失时,它们被认为是MCAR。
随机失踪
随机数据丢失(MAR)不实际上是随机丢失的;这个术语有点用词不当.
这种类型的缺失数据与您收集的数据系统上不同,但它可以由其他观察到的变量完全解释。
数据点缺失的可能性与另一个观测变量有关,但与该数据点本身的具体值无关。
失踪不是随机的
非随机数据丢失(MNAR)是由于与值本身相关的原因而丢失的。
寻找这种类型的缺失数据很重要,因为您可能缺少来自示例中关键子组的数据。你的样本可能最终不能代表你的人口.
磨损的偏见
在纵向研究,损耗偏差可以是MNAR数据的一种形式。磨损的偏见意味着一些参与者比其他人更有可能退出。
例如,在长期的医学研究中,一些参与者可能会退出,因为随着研究的继续,他们的身体越来越不舒服。他们的数据是MNAR,因为他们的健康状况更差,所以你最终的数据集可能只包括健康的人,你会错过重要的数据。
丢失数据有问题吗?
缺失数据是有问题的,因为根据类型的不同,它们有时会导致抽样偏差.这意味着你的结果可能不是可概括的在你的研究之外,因为你的数据来自一个不具代表性的样本.
在实践中,您通常可以考虑两种类型的缺失数据可忽略的因为缺失的数据与观测值没有系统性差异:
- MCAR数据
- 3月的数据
对于这两种数据类型,数据点缺失的可能性与值本身无关。因此,你缺失的值不太可能与你观测到的值有显著差异。
另一方面,如果缺失的数据与观测到的数据有系统性差异,那么数据集就有偏差。MNAR数据被调用不可忽略因为这个原因。
如何防止数据丢失
缺失的数据往往来自磨损的偏见,nonresponse或设计糟糕的研究方案。当设计你的学习,这是一个很好的实践,让您的参与者容易提供数据。
下面是一些帮助你减少丢失数据的技巧:
- 限制随访次数
- 尽量减少收集的数据
- 使数据收集表单对用户友好
- 使用数据验证技术
- 提供优惠政策
收集数据后,小心地存储它们是很重要的,要有多个备份。
如何处理缺失值
要整理数据,您的选项通常包括接受、删除或重新创建丢失的数据。
您应该根据对数据丢失原因的评估,考虑如何处理每一种数据丢失情况。
- 这些数据丢失是由于随机原因还是非随机原因?
- 数据丢失是因为它们表示零或空值吗?
- 这个问题或测量方法设计得很糟糕吗?
您的数据可以被接受,如果是MCAR或mar,也可以保持原样。但是,MNAR数据可能需要更复杂的处理。
验收
最保守的选择包括接受丢失的数据:您只需将这些单元格留空。
当您认为您正在处理MCAR或MAR值时,最好这样做。当你有一个小样本时,你会想要保存尽可能多的数据,因为任何数据删除都会影响你的统计能力.
你也可以用“N/A”(“不适用”的缩写)标签重新编码所有缺失的值,以使它们在整个数据集中保持一致。
这些操作可以帮助您保留来自尽可能多的研究对象的数据,并且几乎没有变化。
删除
您可以删除缺失的数据统计分析使用列表或成对删除。
Listwise删除
Listwise删除意味着删除数据集中任何变量数据缺失的所有案例(参与者)的数据。您将拥有一个包含所有参与者的完整数据集。
这种技术的一个缺点是,你最终可能会得到一个更小的和/或有偏见的样本。如果某些数据丢失了大量数据变量或者具体来说,提供数据的参与者可能与不提供数据的参与者存在显著差异。
你的样本可能有偏差,因为它不能充分代表人口.
成对删除
成对删除让您保留更多的数据,只需删除任何分析中缺失的数据点。它可以保存更多的数据,因为包括了案例中的所有可用数据。
这也意味着每个变量的样本量不均匀。但当你有一个小样本或一些变量的缺失值的大比例时,它是有帮助的。
当您对多个变量进行分析时,例如a相关,只包含每个变量数据完整的案例(参与者)。
归责
归责意思是根据合理的估计将缺失的值替换为另一个值。您可以使用其他数据为更完整的数据集重新创建缺失的值。
您可以从几种imputation方法中进行选择。
Hot-deck归责
在hot-deck归责,将每个缺失的值替换为数据集中类似案例或参与者的现有值。对于每个缺失值的情况,缺失值将被来自所谓“供体”的值替换,该值与基于其他变量的数据的情况类似。
Cold-deck归责
另外,在cold-deck归责,将缺失的值替换为其他数据集中类似情况下的现有值。新值来自一个不相关的样本。
小心使用imputation
归因是一项复杂的任务,因为你必须权衡利弊。
虽然保留了所有数据,但此方法可以创建研究偏见并导致不准确的结果。您永远无法确定替换后的值是否准确地反映了将要观察或回答的内容。这就是为什么最好谨慎地使用归因。
关于丢失数据的常见问题
- 如何处理丢失的数据?
-
整理你的缺失的数据,您的选择通常包括接受、删除或重新创建丢失的数据。
- 验收:数据保持原样
- 逐级或成对删除:从分析中删除丢失数据的所有案例(参与者)
- 归责:您可以使用其他数据来填充缺失的数据
引用这篇Scribbr文章
如果你想引用这个来源,你可以复制和粘贴引用或点击“引用这篇Scribbr文章”按钮,自动添加到我们的免费引用生成器引用。