2.2.1 关于应用的问题
关于应用的问题
数据质量问题也可以从应用的角度来考虑,表达为“如果数据适合其预期用途,那么它就是高质量的“。高质量的数据需考虑以下几点:
时效性
有些数据收集后就开始老化。特别是,如果数据提供了一些正在发生的现象或过程的快照,如客户的购买行为或web浏览模式,那么这个快照只能代表有限时间内的情况。如果数据过时了,那么基于它的数据模型和模式也会过时。
数据质量问题也可以从应用的角度来考虑,表达为“如果数据适合其预期用途,那么它就是高质量的“。高质量的数据需考虑以下几点:
有些数据收集后就开始老化。特别是,如果数据提供了一些正在发生的现象或过程的快照,如客户的购买行为或web浏览模式,那么这个快照只能代表有限时间内的情况。如果数据过时了,那么基于它的数据模型和模式也会过时。
前面几节讨论了梯度下降算法和线性回归模型、线性假设,平方误差代价函数\(J\)。本节将梯度下降算法来最小化平方误差代价函数,线性回归学习算法。
需要安装Octave或MATLAB
http://wiki.octave.org/GNU_Octave_Wiki
使用MATLAB Online
有关MATLAB在线访问或技术问题的帮助,请参见MATLAB帮助讨论论坛。将https://matlab.mathworks.com/添加为书签,以在将来更快地访问MATLAB Online。
本节将讨论如何找到满足前面的假设函数的参数,即如何使用梯度下降法来解决多特征量的线性回归问题。
上节指出了假设函数\[h_\theta(x)\]可以由两个向量相乘表示,即\[h_\theta(x)=\theta^Tx\] ,其中向量\[\theta\]是由参数\[\theta_0,\theta_1,...,\theta_n\]组成
的n+1维向量,\[x\]是由\[x_0=1\] 和 n个特征量\[x_1,...,x_n\]组成的n+1维向量。
代价函数(Cost Function)是参数为\[\theta_0,\theta_1,...,\theta_n\]的函数 J,其给出了误差平方和。
使用梯度下降法后,\[\theta_j\]被更新成\[\theta_j\]减去学习率\[\alpha\]与对应导数(代价函数J对参数\[\theta_j\]的偏导数)的乘积。