WEEK2.2.3 特征缩放法
特征缩放法
特征缩放法(Feature Scaling)是梯度下降中的一个实用技巧,可以使梯度下降算法更快地收敛。
数据集通常可以看做数据对象的集合。数据对象也叫做记录(record)、点(point)、向量(vector)、模式(pattern)、事件(event)、案例(case)、样本(sample)、实例(instance)、观测(observation)或实体(entity)。
数据对象由一组刻画对象基本特性的属性(attribute)来描述。属性的其他名称为变量(variable), 特性(characteristic),字段( field), 特征(feature), 或 维(dimension)。
数据集类型分组可以分为三组:记录数据、基于图形的数据和有序数据。这些分类不涵盖所有可能性,也有其他类型的分组。
适用于许多数据集并对所使用的数据挖掘技术有重要影响的三个特征:维度(dimensionality)、分布(distribution)和分辨率(resolution)。
数据集的维度是数据集中对象具有的属性数目。分析具有少量维度的数据往往与分析中等或高维数据有质的区别。分析高维数据有时会陷入所谓的维灾难(curse of dimensionality)。因此预处理的一个重要动机是维归约(dimensionality reduction)。
从机器学习/人工智能、模式识别、统计和数据库系统中汲取思想。
传统的技术可能不适合,由于当今数据具有如下特点
数据挖掘任务一般分为两大类: