0%

1.1 什么是数据挖掘?

有很多定义:

  • Non-trivial extraction of implicit, previously unknown and potentially useful information from data
  • Exploration & analysis, by automatic or semi-automatic means, of large quantities of data in order to discover meaningful patterns

Data mining is the process of automatically discovering useful information in large data repositories.

总的来说,数据挖掘是在大型数据仓库中自动发现有用信息的过程。数据挖掘技术被用于搜索大型数据集,以找到新的和有用的模式。它还可以预测未来的观察结果,比如客户将在网上或实体店消费的金额。

阅读全文 »

1.2 数据挖掘要解决的问题

传统的数据分析技术在应对大数据应用带来的挑战时,经常遇到实际困难。以下是推动数据挖掘发展的一些具体问题。

阅读全文 »

什么是机器学习?

提供了机器学习的两种定义。亚瑟·塞缪尔(Arthur Samuel)将其描述为:“使计算机无需明确编程即可学习的研究领域”。这是一个较旧的非正式定义。

汤姆·米切尔(Tom Mitchell)提供了一个更现代的定义:“如果某计算机程序在T任务中的性能(由P来衡量)随着经验E的提高而提高,则可以说它是从经验E中学习有关某类任务T和性能度量P的。 ”

例如:玩跳棋。

阅读全文 »

与监督学习相比,无监督学习的数据没有属性或者标签,即给定的数据集都是一样的。我们不知道每个数据是什么意义。让机器在从数据集中找到某种结构,对于无监督学习,没有基于预测结果的反馈。

即:只告诉算法,你看这有一堆数据,我不知道这些数据是什么东东,不知道里面有什么类型,叫什么名字。请问你可以自动的找到这些数据的类型吗?然后自动的按照类型将这些个体分类。因为对于这些数据样本来说,我们没有给算法一个正确答案,所以这就是无监督学习。

阅读全文 »

Supervised Learning

监督学习

监督学习:给定已知正确输出结果(以属性或者标签进行标识)的数据集,让机器通过算法学习知道输入和输出之间的关系。

监督学习问题有两大类:

阅读全文 »