2.2.1 关于应用的问题

关于应用的问题

数据质量问题也可以从应用的角度来考虑,表达为“如果数据适合其预期用途,那么它就是高质量的“。高质量的数据需考虑以下几点:

时效性

有些数据收集后就开始老化。特别是,如果数据提供了一些正在发生的现象或过程的快照,如客户的购买行为或web浏览模式,那么这个快照只能代表有限时间内的情况。如果数据过时了,那么基于它的数据模型和模式也会过时。

相关性

可用的数据必须包含应用所需的信息。比如建立一个预测驾驶员事故率的模型。如果忽略驾驶员的年龄和性别信息,那么模型的准确性很可能有限,除非这些信息可以从其他属性间接获得。

确保数据集中的对象是相关的不太容易。常见问题是抽样偏倚(sampling bias),指样本包含的不同类型的对象与它们在总体中的出现情况不成比例。因为数据分析的结果只能反映当前的样本数据,抽样偏倚通常会导致不正确的分析。

关于数据的知识

理想情况下,数据集附有描述数据的文档。此文档的质量可以支持或干扰后续的分析。例如,如果文档将几个属性标识为强相关的,则属性很可能提供高度冗余的信息,我们可以决定只保留一个。但是,如果文档很糟糕,例如并没有说明某特定字段的缺省值是用-9999表示的,那么我们对数据的分析可能会出现问题。其他应该说明的重要特性包括数据精度、特征的类型(标称的、序数的、区间的、比率的)、测量的刻度(如长度用米还是英尺)和数据的来源。