如何清理数据?

每个数据集都需要不同的技术清理脏数据,但你需要系统地解决这些问题。您专注于寻找和解决与数据集的其余部分不一致或不匹配的数据点。

这些数据可能是缺失值、异常值、重复值、格式不正确或不相关。您将从筛选和诊断数据开始。然后,您将经常标准化并接受或删除数据,以使数据集一致且有效。