0%

特征缩放法

特征缩放法(Feature Scaling)是梯度下降中的一个实用技巧,可以使梯度下降算法更快地收敛。

阅读全文 »

2.1.1 属性和度量

数据集与数据对象

数据集通常可以看做数据对象的集合。数据对象也叫做记录(record)、点(point)、向量(vector)、模式(pattern)、事件(event)、案例(case)、样本(sample)、实例(instance)、观测(observation)或实体(entity)。

数据对象由一组刻画对象基本特性的属性(attribute)来描述。属性的其他名称为变量(variable), 特性(characteristic),字段( field), 特征(feature), 或 维(dimension)。

阅读全文 »

2.1.2 数据集的类型

数据集类型分组可以分为三组:记录数据、基于图形的数据和有序数据。这些分类不涵盖所有可能性,也有其他类型的分组。

数据集的一般性

适用于许多数据集并对所使用的数据挖掘技术有重要影响的三个特征:维度(dimensionality)、分布(distribution)和分辨率(resolution)。

维度

数据集的维度是数据集中对象具有的属性数目。分析具有少量维度的数据往往与分析中等或高维数据有质的区别。分析高维数据有时会陷入所谓的维灾难(curse of dimensionality)。因此预处理的一个重要动机是维归约(dimensionality reduction)

阅读全文 »

数据挖掘的起源

从机器学习/人工智能、模式识别、统计和数据库系统中汲取思想。

传统的技术可能不适合,由于当今数据具有如下特点

  • Large-scale
  • High dimensional
  • Heterogeneous
  • Complex
  • Distributed
阅读全文 »

数据挖掘的任务

数据挖掘任务一般分为两大类:

  • 预测任务(Predictive tasks)
    • 这些任务的目的是根据其他属性的值预测特定属性的值。被预测的属性一般称为目标变量(target)或因变量(dependent variable),用来进行预测的属性称为说明变量(explanatory)自变量(independent variables)
  • 描述任务(Descriptive tasks)
    • 这里的目标是导出概括数据中潜在联系的模式(相关性、趋势、聚类、轨迹和异常)。描述性数据挖掘任务在本质上通常是探查性的,并且经常需要后处理技术来验证和解释结果。
阅读全文 »