什么是数据清理?|定义、指南和示例

数据清理包括发现和解决潜在的数据不一致或错误,以提高数据质量。一个错误是指任何不反映所测量物体的真实值(例如,实际重量)的值(例如,记录重量)。

在此过程中,您将查看、分析、检测、修改或删除“脏”数据,以使数据集“干净”。数据清理也称为数据清理或数据擦洗。

为什么数据清理很重要?

定量研究,你收集数据并使用统计分析回答一个研究问题。使用假设检验,你会发现你的数据是否支持你的研究预测。

未经正确清理或校准的数据尤其会导致几种类型的研究偏差信息偏倚而且忽略变量偏差

例子:定量研究
你调查一种新药是否能降低影响的疲劳。

调查参与者在药物治疗前和结束时。使用封闭式问题,你问利开特式量表关于参与者的经历和症状的问题,评分从1到7分

错误通常是不可避免的,但清理数据可以帮助您将错误最小化。如果你不消除或解决这些错误,你可能会得到一个错误或无效的研究结论。

示例:数据错误
大多数问题都是积极的,但有些问题有消极的框架来吸引参与者。

问题请将你同意或不同意这些观点的程度从1到7分。

  • 积极的框架:早上醒来时我感觉休息得很好。
  • 负面框架:晚上睡了8个小时后,我感觉没有精力。

这两个问题测量的是同一件事:受访者早上醒来后的感觉。但是,在分析之前,负面措辞问题的答案需要反向编码,以便所有的答案都一致。

反向编码是指将数字刻度朝相反的方向翻转,以便每个问题的极值(例如1或7)都是相同的。

如果你在分析之前忘记对这些答案进行反向编码,你可能会因为数据错误而得出无效的结论。

使用不准确或无效的数据,可能会导致错误I或II型错误在你的结论中。这些类型的错误结论可能会带来重大的实际后果,因为它们会导致错误的投资或错失机会。

示例:I型错误
根据结果,你犯了第一类错误。你认为这种药是有效的当它不是。

你的组织决定投资这种新药,而给人们开的是这种药物,而不是有效的治疗方法。

脏数据与干净数据

脏数据包括不一致和错误。这些数据可以来自研究过程的任何部分,包括穷人研究设计、测量材料不当或数据输入有缺陷。

干净数据满足高质量的一些要求,而脏数据在一个或多个方面存在缺陷。让我们比较一下脏数据和干净数据。

脏数据 干净的数据
无效的 有效的
不准确的 准确的
不完整的 完整的
不一致的 一致的
重复的条目 独特的
格式不正确的 统一的

防止抄袭,运行免费检查。

免费尝试

有效数据

有效数据符合特定类型信息的某些要求(例如,整数、文本、日期)。无效的数据与观测结果可能接受的值不匹配。

示例:数据验证
如果使用数据验证技术,表单上的出生日期只有在以某种方式格式化时才能被识别,例如dd-mm-yyyy。

日字段最多允许31个数字,月字段最多允许12个数字,年字段最多允许2021年。如果任何数字超过这些值,表单将不会被提交。

如果没有有效的数据,您的数据分析过程可能没有意义。在分析数据之前,最好使用数据验证技术来确保数据的格式正确。

准确的数据

在测量中,精度指的是观测值与真实值的接近程度。数据的有效性是关于观察的形式,而数据的准确性是关于实际的内容。

示例:不准确的数据
你问受访者以下问题:

你多久亲自去一次杂货店?

  • 每一天
  • 每周一次
  • 两周一次的
  • 每月一次
  • 一个月不到一次
  • 从来没有

一些受访者选择了“两周一次”作为他们的答案。但是这个词的意思既可以是两次一周,也可以是每两周一次,这是两个完全不同的频率。

你不知道每个人是如何解释这个词的,所以你的数据是不准确的,因为反应项目不充分。

完整的数据

测量和记录完整的数据。不完整的数据是缺少信息的报表或记录。

示例:不完整的数据
在网上调查,参与者开始回答一个开放式问题。但他们会分心,在继续调查之前做其他事情。他们不填写完整的答案就直奔下一个问题。

重建丢失的数据并不容易。有时,你可以联系参与者,让他们重新做一份调查或一份报告面试,但你可能不会得到你本来会得到的答案。

一致的数据

干净数据在数据集中是一致的。对于你的每一个成员样本,数据为不同变量应该排在一起才合乎逻辑。

例如:数据不一致
在你的调查中,你收集了人口统计变量的信息,包括年龄、种族、教育水平和社会经济地位。一名参与者输入“13”表示他们的年龄和博士级别的教育作为他们获得的最高学位。

这些数据是不一致的,因为在你的特定样本中,一个13岁的孩子拥有博士学位的可能性很小。更有可能是输入了错误的年龄。

独特的数据

数据收集时,您可能会不小心将同一参与者的数据记录两次。

示例:重复条目
在在线调查中,参与者填写问卷调查然后按两次回车键提交。数据在你这端被报告了两次。

在数据清理中,检查数据中的相同条目并删除任何重复条目非常重要。否则,您的数据可能是倾斜

统一的数据

使用相同的度量单位报告统一的数据。如果数据不是全部使用相同的单位,则需要将它们转换为标准度量。

例如:非均匀数据
在调查中,你要求参与者填写他们的工资总额(美元)。

一些参与者提供了他们的月薪,而另一些则提供了他们的年薪。

除非您提供时间单位,否则参与者可能会使用不同的时间框架来回答这个问题。你不知道他们汇报的是月薪还是年薪。

如何清理数据?

每个数据集都需要不同的技术来清除脏数据,但您需要以系统的方式解决这些问题。您希望尽可能多地保存数据,同时确保最终得到一个干净的数据集。

数据清理是一个困难的过程,因为一旦收集到数据,就很难查明错误。您通常无法知道一个数据点是否准确地反映了某些东西的实际价值。

在实践中,您可能会专注于以更明显的方式寻找和解决与数据集其他部分不一致或不匹配的数据点。这些数据可能是缺失值离群值格式不正确或无关紧要。

您可以根据需要选择一些清理数据的技术。您希望最终得到的是尽可能完整的有效、一致、唯一和统一的数据集。

数据清理工作流程

一般来说,您可以通过在广泛的级别上扫描数据来开始数据清理。您系统地检查和诊断问题,然后根据标准化程序修改单个项目。您的工作流可能是这样的:

  1. 应用数据验证技术防止脏数据输入
  2. 筛选数据集的错误或不一致
  3. 诊断数据条目
  4. 开发将数据映射为有效值的代码
  5. 根据标准化过程转换或删除数据

并非所有这些步骤都与每个数据集相关。您可以在必要的地方谨慎地应用数据清理技术,并使用清晰的流程文档来提高透明度。

通过记录您的工作流程,您可以确保其他人可以检查和复制您的过程。

数据验证

数据验证涉及应用约束以确保拥有有效且一致的数据。它通常在你收集数据之前就应用了,当设计调查问卷或其他需要人工录入数据的测量材料。

不同的数据验证约束可以帮助您最大限度地减少需要执行的数据清理量。

数据类型约束:只有具有特定类型(如数字或文本)的值才能被接受。

示例:数据类型约束
如果输入的日期同时包含文本和数字(例如,2021年3月20日),而不仅仅是数字(例如,2003-2021年),则该日期将不被接受。

范围约束:值必须在一定范围内才有效。

示例:范围约束
你为目标人群设计了一份问卷,年龄在18到45岁之间。在报告年龄时,参与者只能输入18到45岁之间的值才能继续填写表格。

强制性的约束:必须输入一个值。

示例:强制约束
填写表单的参与者必须选择一个显示“我同意”的按钮才能开始。

数据筛选

收集数据后,最好为原始数据集创建备份并安全存储。如果您在工作流中犯了任何错误,您总是可以通过复制备份并从数据集的新副本开始重新开始。

数据筛选包括检查数据集是否存在不一致、无效、缺失或异常数据。您可以手动或使用统计方法进行此操作。

步骤1:整理数据集

这些操作将帮助您保持数据的组织性和易于理解。

  • 将每个变量(度量)转换为一列,将每个案例(参与者)转换为一行。
  • 为列指定唯一的逻辑名称。
  • 从数据集中删除任何空行。

第二步:视觉扫描你的数据,找出可能的差异

浏览你的数据集并回答以下问题:

  • 日期、文本或数字数据的格式是否不规范?
  • 某些列是否有大量丢失的数据?
  • 是否有行重复条目?
  • 某些列中的特定值是否看起来是极端异常值?

请注意这些问题,并考虑如何在数据清理过程中解决它们。

步骤3:使用统计技术和表格/图表来探索数据

通过收集描述性统计信息和可视化,您可以确定数据是如何分布的,并识别异常值或偏态

  1. 用箱形图、散点图或直方图直观地探索数据
  2. 检查您的数据是否正确正态分布
  3. 创建总结(描述性)统计每个变量
  4. 用频率表总结你的定量数据

通过可视化,您可以大致了解量化变量数据是如何分布的。箱形图和散点图可以显示数据是如何分布的,以及是否有任何极值。检查变量是否正态分布很重要,这样才能选择合适的变量统计测试为了你的研究。

如果你的的意思是中位数,模式它们之间都有很大的不同,数据集中可能有你应该研究的异常值。

数据诊断

在总体概述之后,您可以开始了解数据集的本质。您需要创建一个标准过程来检测和处理不同类型的数据。

如果没有适当的计划,您可能只会选择一些数据点进行清理,从而导致数据集有偏差。

在这里,我们将专注于处理脏数据中常见问题的方法:

  • 重复数据
  • 无效的数据
  • 缺失值
  • 离群值

重复数据删除

重复数据删除意味着检测并删除数据的任何相同副本,只在数据集中留下唯一的案例或参与者。

例如:重复数据删除
在电子表格中编译数据,其中列是问题,行是参与者。每行包含一个参与者的数据。

您可以按列对数据进行排序,并逐行检查数据,以检查是否有相同的行。删除一行的相同副本。

如果数据集中保留了重复的数据,它们将被删除偏见你的结果.一些参与者的数据权重将高于其他参与者。

无效的数据

使用数据标准化,您可以识别并将不同格式的数据转换为统一格式。

与数据验证不同,您可以在收集数据后将标准化技术应用于数据。这涉及到开发代码,将脏数据转换为一致且有效的格式。

如果在数据输入时没有数据限制,或者数据格式不一致,那么数据标准化是有帮助的。

示例:无效数据
使用开放式问题,你要求参与者报告他们的年龄。你的回答混杂了数字和文字,还有一些错别字。

以下是一些回应:

  • 23
  • 二十
  • 19
  • eihgteen
  • 22

字符串匹配方法

要标准化不一致的数据,可以使用严格或模糊字符串匹配方法来识别数据与有效值之间的精确匹配或紧密匹配。

字符串是一个字符序列。将数据字符串与期望获得的有效值进行比较,然后删除或转换不匹配的字符串。

严格的字符串匹配:任何不完全匹配有效值的字符串都被认为是无效的。

例如:严格字符串匹配
有效值包括18到45之间的数字以及表示数字的任何拼写正确的单词第一个字母大写

在这种情况下,5个值中只有3个会被严格匹配接受。

  • 23
  • 二十
  • 19
  • eihgteen
  • 22

模糊匹配:接近或近似匹配有效值的字符串将被识别和更正。

例如:模糊字符串匹配
有效值包括18到45之间的数字以及表示数字的任何单词。您可以使用计算机程序允许数据集中与这些有效值密切匹配的任何值。

对于紧密匹配的字符串,程序检查需要进行多少次编辑才能将字符串更改为有效值,如果编辑次数足够小,则进行这些更改。

模糊字符串匹配将接受所有五个值。

  • 23
  • 二十
  • 19
  • eihgteen
  • 22

匹配后,可以将文本数据转换为数字,以便所有值的格式一致。

模糊字符串匹配通常比严格字符串匹配更可取,因为可以保留更多的数据。

缺失的数据

在任何数据集中,通常都有一些缺失的数据.这些单元格在电子表格中显示为空白。

数据缺失可能是由于随机或系统原因造成的。

  • 随机缺失数据包括数据输入错误、注意力不集中错误或对测量的误读。
  • 非随机缺失数据由混乱、设计不良或不恰当的测量或问题造成的结果。

处理缺失数据

处理丢失数据的选项通常包括:

  • 接受数据的本来面目
  • 从分析中移除案例
  • 重新创建丢失的数据

随机丢失的数据通常被保留,而非随机丢失的数据可能需要删除或替换。

删除,则从分析中删除数据缺失的参与者。但你的样本可能会比预期的小,所以你可能会输统计能力

示例:缺失数据删除
您决定从调查数据集中删除所有数据缺失的参与者。这将样本从114个参与者减少到77个参与者。

或者,您可以使用归责根据合理的估计,用另一个值替换缺失的值。您可以使用其他数据替换缺失的值,以获得更完整的数据集。

谨慎应用归因是很重要的,因为存在偏差或不准确的风险。

离群值

离群值是与数据集中大多数其他数据点不同的极值。离群值可以是真值或错误。

真正的离群值应该一直保留,因为这些只是代表样本中的自然变化。例如,为100米奥运会短跑训练的运动员的速度比人口中的大多数人要快得多。他们的冲刺速度是天然的异常值。

离群值也可能由测量误差、数据输入错误或不具代表性的抽样产生。例如,如果误读计时器,可能会记录极低的冲刺时间。

检测异常值

异常值总是在任何变量数据集的极端端。

您可以使用以下几种方法来检测异常值:

  • 将值从低到高排序,并检查最小值和最大值
  • 在箱线图中可视化您的数据并搜索异常值
  • 使用统计程序来确定极值

处理异常值

一旦确定了异常值,您将决定如何在数据集中处理它们。你的主要选择是保留或删除它们。

一般来说,您应该尽可能多地接受异常值,除非很明显它们代表错误或坏数据。

重要的是要记录下你移除的每个异常值及其原因,以便其他研究人员可以遵循你的程序。

关于数据清理的常见问题

什么是数据清理?

数据清理包括发现和解决潜在的数据不一致或错误,以提高数据质量。一个错误是指任何不反映被测量物体真实值(例如,实际重量)的值(例如,记录的重量)。

在此过程中,您将查看、分析、检测、修改或删除“脏”数据,以使数据集“干净”。数据清洗也称为数据清理或数据擦洗。

为什么数据清理很重要?

数据清理对于有效和适当的分析是必要的。脏数据包含不一致或错误,但清理数据可以帮助您最小化或解决这些问题。

如果没有数据清理,您可能会得到一个I或II型错误在你的结论中。这些类型的错误结论可能会带来重大的实际后果,因为它们会导致错误的投资或错失机会。

如何清理数据?

每个数据集都需要不同的技术清理脏数据,但你需要系统地解决这些问题。您专注于寻找和解决与数据集的其余部分不一致或不匹配的数据点。

这些数据可能是缺失值、异常值、重复值、格式不正确或不相关。您将从筛选和诊断数据开始。然后,您将经常标准化并接受或删除数据,以使数据集一致且有效。

什么时候清理数据?

数据清理发生在数据收集还有数据分析。但是您甚至可以在收集数据之前使用一些方法。

对于干净的数据,您应该从设计收集有效数据的度量开始。在数据输入或收集时进行数据验证可帮助您最大限度地减少需要执行的数据清理量。

在数据收集之后,可以使用数据标准化和数据转换来清理数据。您还将处理任何缺失值、异常值和重复值。

干净数据和脏数据的区别是什么?

干净的数据有效、准确、完整、一致、唯一和统一。脏数据包括不一致和错误。

脏数据可以来自研究过程的任何部分,包括穷数据研究设计、测量材料不当或数据输入有缺陷。

引用这篇Scribbr文章

如果你想引用这个来源,你可以复制和粘贴引用或点击“引用这篇Scribbr文章”按钮,自动添加到我们的免费引用生成器引用。

班达里,P.(202,12月02日)。什么是数据清理?|定义、指南和示例。Scribbr。检索于2022年12月19日,来自//www.charpingshvac.com/methodology/data-cleansing/

这篇文章有用吗?
Pritha班达里

普里塔拥有英语、心理学和认知神经科学方面的学术背景。作为一名跨学科研究人员,她喜欢为学生和学者撰写文章,解释棘手的研究概念。
Baidu