1.1 什么是数据挖掘?
1.1 什么是数据挖掘?
有很多定义:
- Non-trivial extraction of implicit, previously unknown and potentially useful information from data
- Exploration & analysis, by automatic or semi-automatic means, of large quantities of data in order to discover meaningful patterns
Data mining is the process of automatically discovering useful information in large data repositories.
总的来说,数据挖掘是在大型数据仓库中自动发现有用信息的过程。数据挖掘技术被用于搜索大型数据集,以找到新的和有用的模式。它还可以预测未来的观察结果,比如客户将在网上或实体店消费的金额。
但并不是所有的信息发现任务都是数据挖掘。例如信息检索(information retrieval),包括在数据库中查询记录,搜索相关网站。数据挖掘技术可以用于增强信息检索系统的能力。
数据挖掘和知识发现
Data mining is an integral part of knowledge discovery in databases (KDD), which is the overall process of converting raw data into useful information
数据挖掘是数据库知识发现(knowledge discovery in database, KDD)的重要组成部分,KDD是将未加工的数据转换为有用信息的整个过程。

输入数据可以以各种格式存储(平面文件、电子表格或关系表),可以存储在集中式数据存储库中,也可以分布在多个站点上。
数据预处理的目的是将原始输入数据转换为适合后续分析的格式。数据预处理(Data Preprocessing)的步骤包括融合多源数据、清理数据以去除噪声和重复的观测值、选择与当前数据挖掘任务相关的记录和特征。
“结束闭环”(Closing the loop),指的是将数据挖掘结果集成到决策支持系统的过程。例如,在商业应用中,数据挖掘的结果所揭示的规律可以结合商业活动管理工具,从而开展或测试有效的商品促销活动。这种结合就需要后处理(Postprocessing),以确保只有有效和有用的结果被纳入决策支持系统。后处理的一个例子是可视化,它使得数据分析者可以从各种不同的视角探查数据和数据挖掘结果。
虽然数据挖掘传统上被视为KDD框架中的中间过程,但多年来它已经成为计算机科学中的一个学术领域,关注于KDD的所有方面,包括数据预处理、挖掘和后处理。