2.3 数据预处理

数据预处理策略和技术常见的有以下几种:

  • 聚集 Aggregation
  • 抽样 Sampling
  • 维规约 Dimensionality reduction
  • 特征子集选择 Feature subset selection
  • 特征创建 Feature creation
  • 离散化和二元化 Discretization and binarization
  • 变量转换 Variable transformation

总之,以上技术可以归为两类:选择分析所需要的数据对象和属性以及创造/改变属性。其目标是降低数据挖掘分析的时间,花销和提高质量。后述的特征(feature)和变量(variable)都是指属性(attribute)。