2.3.2 抽样

发表于 2021-05-25 更新于 2021-08-08 分类于 DM 阅读次数：评论：

本文字数： 866 阅读时长 ≈ 1 分钟

抽样

抽样是一种选择数据对象子集进行分析的常用方法。在数据挖掘中，抽样的目的是减小计算的成本（内存，时间等处理因素），在某些情况下使用抽样的算法可以压缩数据量，以便使用更好但开销较大的数据挖掘算法。

有效抽样的主要原理如下：

由于抽样是一个统计过程，特定样本的代表性是变化的，因此我们所能做的最好的抽样方案就是选择一个确保以很高的概率得到有代表性的样本。

下面将介绍如何选择恰当的样本。

简单随机抽样（simple random sampling）：从总体N个单位中任意抽取n个单位作为样本，每个样本被抽中的概率相等。

当总体由不同类型的对象组成，每种类型的对象数量差别很大时，简单随机抽样不能充分地代表不太频繁出现的对象类型。当分析需要所有类型的代表时，这可能出现问题。因此需要提供具有不同频率的感兴趣的项的抽样方案。

分层抽样（stratified sampling）：从预先指定的组开始抽样。有两种形式：（1）尽管每组的大小不同，但是从每组抽取的对象的个数相同。（2）从每组抽取的对象数量正比于该组的大小。

合适的样本容量可能很难确定，因此有时需要使用自适应（adaptive）或渐进抽样（progressive sampling）方法。这些方法从一个小样本开始，然后增加样本容量直至得到足够容量的样本，尽管这种技术不需要在开始就确定正确的样本容量，但是需要评估样本的方法，确定它是否足够大。

例如，假定使用渐进抽样来学习一个预测模型。尽管预测模型的准确率随时间样本容量增加，