什么是数据清理?|定义、指南和示例
数据清理包括发现和解决潜在的数据不一致或错误,以提高数据质量。一个错误是指任何不反映所测量物体的真实值(例如,实际重量)的值(例如,记录重量)。
在此过程中,您将查看、分析、检测、修改或删除“脏”数据,以使数据集“干净”。数据清理也称为数据清理或数据擦洗。
为什么数据清理很重要?
在定量研究,你收集数据并使用统计分析回答一个研究问题。使用假设检验,你会发现你的数据是否支持你的研究预测。
未经正确清理或校准的数据尤其会导致几种类型的研究偏差信息偏倚而且忽略变量偏差.
错误通常是不可避免的,但清理数据可以帮助您将错误最小化。如果你不消除或解决这些错误,你可能会得到一个错误或无效的研究结论。
使用不准确或无效的数据,可能会导致错误I或II型错误在你的结论中。这些类型的错误结论可能会带来重大的实际后果,因为它们会导致错误的投资或错失机会。
脏数据与干净数据
脏数据包括不一致和错误。这些数据可以来自研究过程的任何部分,包括穷人研究设计、测量材料不当或数据输入有缺陷。
干净数据满足高质量的一些要求,而脏数据在一个或多个方面存在缺陷。让我们比较一下脏数据和干净数据。
脏数据 | 干净的数据 |
---|---|
无效的 | 有效的 |
不准确的 | 准确的 |
不完整的 | 完整的 |
不一致的 | 一致的 |
重复的条目 | 独特的 |
格式不正确的 | 统一的 |
有效数据
有效数据符合特定类型信息的某些要求(例如,整数、文本、日期)。无效的数据与观测结果可能接受的值不匹配。
如果没有有效的数据,您的数据分析过程可能没有意义。在分析数据之前,最好使用数据验证技术来确保数据的格式正确。
准确的数据
在测量中,精度指的是观测值与真实值的接近程度。数据的有效性是关于观察的形式,而数据的准确性是关于实际的内容。
完整的数据
测量和记录完整的数据。不完整的数据是缺少信息的报表或记录。
重建丢失的数据并不容易。有时,你可以联系参与者,让他们重新做一份调查或一份报告面试,但你可能不会得到你本来会得到的答案。
一致的数据
干净数据在数据集中是一致的。对于你的每一个成员样本,数据为不同变量应该排在一起才合乎逻辑。
独特的数据
在数据收集时,您可能会不小心将同一参与者的数据记录两次。
在数据清理中,检查数据中的相同条目并删除任何重复条目非常重要。否则,您的数据可能是倾斜.
统一的数据
使用相同的度量单位报告统一的数据。如果数据不是全部使用相同的单位,则需要将它们转换为标准度量。
如何清理数据?
每个数据集都需要不同的技术来清除脏数据,但您需要以系统的方式解决这些问题。您希望尽可能多地保存数据,同时确保最终得到一个干净的数据集。
数据清理是一个困难的过程,因为一旦收集到数据,就很难查明错误。您通常无法知道一个数据点是否准确地反映了某些东西的实际价值。
在实践中,您可能会专注于以更明显的方式寻找和解决与数据集其他部分不一致或不匹配的数据点。这些数据可能是缺失值,离群值格式不正确或无关紧要。
您可以根据需要选择一些清理数据的技术。您希望最终得到的是尽可能完整的有效、一致、唯一和统一的数据集。
数据清理工作流程
一般来说,您可以通过在广泛的级别上扫描数据来开始数据清理。您系统地检查和诊断问题,然后根据标准化程序修改单个项目。您的工作流可能是这样的:
- 应用数据验证技术防止脏数据输入
- 筛选数据集的错误或不一致
- 诊断数据条目
- 开发将数据映射为有效值的代码
- 根据标准化过程转换或删除数据
并非所有这些步骤都与每个数据集相关。您可以在必要的地方谨慎地应用数据清理技术,并使用清晰的流程文档来提高透明度。
通过记录您的工作流程,您可以确保其他人可以检查和复制您的过程。
数据验证
数据验证涉及应用约束以确保拥有有效且一致的数据。它通常在你收集数据之前就应用了,当设计调查问卷或其他需要人工录入数据的测量材料。
不同的数据验证约束可以帮助您最大限度地减少需要执行的数据清理量。
数据类型约束:只有具有特定类型(如数字或文本)的值才能被接受。
范围约束:值必须在一定范围内才有效。
强制性的约束:必须输入一个值。
数据筛选
收集数据后,最好为原始数据集创建备份并安全存储。如果您在工作流中犯了任何错误,您总是可以通过复制备份并从数据集的新副本开始重新开始。
数据筛选包括检查数据集是否存在不一致、无效、缺失或异常数据。您可以手动或使用统计方法进行此操作。
步骤1:整理数据集
这些操作将帮助您保持数据的组织性和易于理解。
- 将每个变量(度量)转换为一列,将每个案例(参与者)转换为一行。
- 为列指定唯一的逻辑名称。
- 从数据集中删除任何空行。
第二步:视觉扫描你的数据,找出可能的差异
浏览你的数据集并回答以下问题:
- 日期、文本或数字数据的格式是否不规范?
- 某些列是否有大量丢失的数据?
- 是否有行重复条目?
- 某些列中的特定值是否看起来是极端异常值?
请注意这些问题,并考虑如何在数据清理过程中解决它们。
步骤3:使用统计技术和表格/图表来探索数据
通过收集描述性统计信息和可视化,您可以确定数据是如何分布的,并识别异常值或偏态.
通过可视化,您可以大致了解量化变量数据是如何分布的。箱形图和散点图可以显示数据是如何分布的,以及是否有任何极值。检查变量是否正态分布很重要,这样才能选择合适的变量统计测试为了你的研究。
如果你的的意思是,中位数,模式它们之间都有很大的不同,数据集中可能有你应该研究的异常值。
数据诊断
在总体概述之后,您可以开始了解数据集的本质。您需要创建一个标准过程来检测和处理不同类型的数据。
如果没有适当的计划,您可能只会选择一些数据点进行清理,从而导致数据集有偏差。
在这里,我们将专注于处理脏数据中常见问题的方法:
- 重复数据
- 无效的数据
- 缺失值
- 离群值
重复数据删除
重复数据删除意味着检测并删除数据的任何相同副本,只在数据集中留下唯一的案例或参与者。
如果数据集中保留了重复的数据,它们将被删除偏见你的结果.一些参与者的数据权重将高于其他参与者。
无效的数据
使用数据标准化,您可以识别并将不同格式的数据转换为统一格式。
与数据验证不同,您可以在收集数据后将标准化技术应用于数据。这涉及到开发代码,将脏数据转换为一致且有效的格式。
如果在数据输入时没有数据限制,或者数据格式不一致,那么数据标准化是有帮助的。
字符串匹配方法
要标准化不一致的数据,可以使用严格或模糊字符串匹配方法来识别数据与有效值之间的精确匹配或紧密匹配。
字符串是一个字符序列。将数据字符串与期望获得的有效值进行比较,然后删除或转换不匹配的字符串。
严格的字符串匹配:任何不完全匹配有效值的字符串都被认为是无效的。
模糊匹配:接近或近似匹配有效值的字符串将被识别和更正。
匹配后,可以将文本数据转换为数字,以便所有值的格式一致。
模糊字符串匹配通常比严格字符串匹配更可取,因为可以保留更多的数据。
缺失的数据
在任何数据集中,通常都有一些缺失的数据.这些单元格在电子表格中显示为空白。
数据缺失可能是由于随机或系统原因造成的。
- 随机缺失数据包括数据输入错误、注意力不集中错误或对测量的误读。
- 非随机缺失数据由混乱、设计不良或不恰当的测量或问题造成的结果。
处理缺失数据
处理丢失数据的选项通常包括:
- 接受数据的本来面目
- 从分析中移除案例
- 重新创建丢失的数据
随机丢失的数据通常被保留,而非随机丢失的数据可能需要删除或替换。
与删除,则从分析中删除数据缺失的参与者。但你的样本可能会比预期的小,所以你可能会输统计能力.
或者,您可以使用归责根据合理的估计,用另一个值替换缺失的值。您可以使用其他数据替换缺失的值,以获得更完整的数据集。
谨慎应用归因是很重要的,因为存在偏差或不准确的风险。
离群值
离群值是与数据集中大多数其他数据点不同的极值。离群值可以是真值或错误。
真正的离群值应该一直保留,因为这些只是代表样本中的自然变化。例如,为100米奥运会短跑训练的运动员的速度比人口中的大多数人要快得多。他们的冲刺速度是天然的异常值。
离群值也可能由测量误差、数据输入错误或不具代表性的抽样产生。例如,如果误读计时器,可能会记录极低的冲刺时间。
检测异常值
异常值总是在任何变量数据集的极端端。
您可以使用以下几种方法来检测异常值:
- 将值从低到高排序,并检查最小值和最大值
- 在箱线图中可视化您的数据并搜索异常值
- 使用统计程序来确定极值
处理异常值
一旦确定了异常值,您将决定如何在数据集中处理它们。你的主要选择是保留或删除它们。
一般来说,您应该尽可能多地接受异常值,除非很明显它们代表错误或坏数据。
重要的是要记录下你移除的每个异常值及其原因,以便其他研究人员可以遵循你的程序。
关于数据清理的常见问题
- 如何清理数据?
-
每个数据集都需要不同的技术清理脏数据,但你需要系统地解决这些问题。您专注于寻找和解决与数据集的其余部分不一致或不匹配的数据点。
这些数据可能是缺失值、异常值、重复值、格式不正确或不相关。您将从筛选和诊断数据开始。然后,您将经常标准化并接受或删除数据,以使数据集一致且有效。
引用这篇Scribbr文章
如果你想引用这个来源,你可以复制和粘贴引用或点击“引用这篇Scribbr文章”按钮,自动添加到我们的免费引用生成器引用。