数据的清理,并不是完全删除与假设无关的原始data。在进行清理中,如果认为某个set的数据有误,或者无关,可以建立另一个文件夹,将其放入其中,避免数据的误判导致数据无法恢复。数据清理是一件难度较高的工作,因为一旦数据收集完成,在从中甄别invalid的数据是困难的。一般来说,数据清理是建立在查找该特定数据是否与其他数据保持完全或者大体一致的基础之上的。判定的标准是,数据是否完整,格式是否正确,是否具有相关性。
具体操作方法:
第一步:整理dataset。将你打算展开清理的数据整体按照一定的标准或者规格有序进行整理。比如,可以将results作为一个column,将不同的结果对应放入对应的区域。这种方法可以有效提高你的清理数据的速度。
第二步:自行肉眼查看是否有数据不一致的地方。可以查看,每个column是否对应到了特定的不相互包容的数据。如果是,则可以通过将其相加,查看是否有遗漏数据。如果否,则查看是否遗漏的column。如果数据是从其他地方手动录入,则需要检查,是否在录入中有明显错误。如果大部分的数据的区间均保持了大体一致或者类似,但某个数据出现了极高或者极地点,则需要检查该insistent数据是否valid。
第三步,采用统计学https://www.lxws.net/statistics-daixie.html方法或者图表深入清理数据。通过直观的可视化的表现方式,能够让你在一堆数据中直接看到那个与众不同的一个。通过 boxplots或者scatterplots,能够一眼看出数据的分布,以及是否存在某个特别高或特别地的data。通过table,能够看出数据的分布,从而能够帮助你决定采用何种统计学方法进行研究。
通过上述的数据清理,便能够大致对数据集进行诊断。常见的需要删除或者进一步确认的数据有:重复的data。重复的数据没有价值,直接删除就好。如果将重复数据kept 在数据集中,将容易导致result的偏差。某些因素的重要性相比于peer 研究成果会显得比重不恰当的高。
invalid data。通过数据清理,发现的那些明显不一致,invalid的数据。未采集到的数据。missing 数据可能是因为搜集时的遗漏,也可能因为在设计环节的失误。应对措施:如果不影响整体结果,可以放任不管;如果对整体形成较大影响,则需要补充。 outliners。这是数据中出现的extreme ones。如果outliners是真实的,则将成为重点论述的对象。如果outliners是错误测量或者计算的结果,则需要修改。