2.3.2 抽样

抽样

抽样是一种选择数据对象子集进行分析的常用方法。在数据挖掘中,抽样的目的是减小计算的成本(内存,时间等处理因素),在某些情况下使用抽样的算法可以压缩数据量,以便使用更好但开销较大的数据挖掘算法。

有效抽样的主要原理如下:

  • 如果样本是由代表性的,则使用样本与使用整个数据集的效果几乎一样
  • 代表性的样本和原始数据集有相同的性质。如果数据对象的均值(平均值)是感兴趣的性质,而样本具有近似于原数据集的均值,则样本就是有代表性的。

由于抽样是一个统计过程,特定样本的代表性是变化的,因此我们所能做的最好的抽样方案就是选择一个确保以很高的概率得到有代表性的样本。

下面将介绍如何选择恰当的样本。

抽样方法

简单随机抽样

简单随机抽样(simple random sampling):从总体N个单位中任意抽取n个单位作为样本,每个样本被抽中的概率相等。

  • 无放回抽样(sampling with replacement):每个选中项立即从构成总体的所有对象集中删除
  • 有会抽样 (sampling without replacement):对象被选中时不从总体中删除。在抽样过程中,每个对象被选中的概率保持不变。

分层抽样

当总体由不同类型的对象组成,每种类型的对象数量差别很大时,简单随机抽样不能充分地代表不太频繁出现的对象类型。当分析需要所有类型的代表时,这可能出现问题。因此需要提供具有不同频率的感兴趣的项的抽样方案。

分层抽样(stratified sampling):从预先指定的组开始抽样。有两种形式:(1)尽管每组的大小不同,但是从每组抽取的对象的个数相同。(2)从每组抽取的对象数量正比于该组的大小。

渐进抽样

合适的样本容量可能很难确定,因此有时需要使用自适应(adaptive)或渐进抽样(progressive sampling)方法。这些方法从一个小样本开始,然后增加样本容量直至得到足够容量的样本,尽管这种技术不需要在开始就确定正确的样本容量,但是需要评估样本的方法,确定它是否足够大。

例如,假定使用渐进抽样来学习一个预测模型。尽管预测模型的准确率随时间样本容量增加,