0%

关于应用的问题

数据质量问题也可以从应用的角度来考虑,表达为“如果数据适合其预期用途,那么它就是高质量的“。高质量的数据需考虑以下几点:

时效性

有些数据收集后就开始老化。特别是,如果数据提供了一些正在发生的现象或过程的快照,如客户的购买行为或web浏览模式,那么这个快照只能代表有限时间内的情况。如果数据过时了,那么基于它的数据模型和模式也会过时。

阅读全文 »

Gradient Descent For Linear Regression

前面几节讨论了梯度下降算法和线性回归模型、线性假设,平方误差代价函数\(J\)。本节将梯度下降算法来最小化平方误差代价函数,线性回归学习算法。

阅读全文 »

环境设置

需要安装Octave或MATLAB

Octave

http://wiki.octave.org/GNU_Octave_Wiki

MATLAB

使用MATLAB Online

  1. 如果您还没有一个,请创建一个MathWorks帐户
  2. 单击MATLAB Online许可证链接,然后提供您的MathWorks帐户凭据(如果需要)。
  3. 单击蓝色的“访问MATLAB Online”按钮,然后使用您的MathWorks帐户凭据登录到MATLAB Online(如果需要)。
  4. 请按照以下说明为MATLAB用户上传练习文件。

有关MATLAB在线访问或技术问题的帮助,请参见MATLAB帮助讨论论坛。将https://matlab.mathworks.com/添加为书签,以在将来更快地访问MATLAB Online。

阅读全文 »

多重特征量(变量)

前面所学的线性回归是一元的,即只有一个特征量x,考虑到预测房价这个模型,现实情况下需要多个变量。用\[x_1,x_2,...,x_n\]表示,而m仍为训练样本的数量。

阅读全文 »

多变量的梯度下降

本节将讨论如何找到满足前面的假设函数的参数,即如何使用梯度下降法来解决多特征量的线性回归问题。

上节指出了假设函数\[h_\theta(x)\]可以由两个向量相乘表示,即\[h_\theta(x)=\theta^Tx\] ,其中向量\[\theta\]是由参数\[\theta_0,\theta_1,...,\theta_n\]组成

的n+1维向量,\[x\]是由\[x_0=1\] 和 n个特征量\[x_1,...,x_n\]组成的n+1维向量。

代价函数(Cost Function)是参数为\[\theta_0,\theta_1,...,\theta_n\]的函数 J,其给出了误差平方和。

使用梯度下降法后,\[\theta_j\]被更新成\[\theta_j\]减去学习率\[\alpha\]与对应导数(代价函数J对参数\[\theta_j\]偏导数)的乘积。

阅读全文 »