当前位置:首页 > 工业技术
普通高等教育“十三五”应用型人才培养规划教材  数据处理与知识发现
普通高等教育“十三五”应用型人才培养规划教材  数据处理与知识发现

普通高等教育“十三五”应用型人才培养规划教材 数据处理与知识发现PDF电子书下载

工业技术

  • 电子书积分:11 积分如何计算积分?
  • 作 者:徐琴,刘智珺主编;王晶副主编;黄向宇参编
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2018
  • ISBN:9787111605843
  • 页数:280 页
图书介绍:本书系统地介绍了数据预处理、数据仓库和数据挖掘的原理、方法及应用技术,以及采用Mahout实践相应的挖掘算法。本书一共有11章,分为两大部分。第1-7章为理论部分,第1章为绪论,介绍了数据挖掘与知识发现领域中的一些基本理论、研究方法等,也简单介绍了Hadoop生态系统中的Mahout;第2-7章按知识发现的过程,介绍数据预处理的方法技术、数据仓库的构建与OLAP技术、数据挖掘原理及算法(包括关联规则挖掘、聚类分析方法、分类规则挖掘)、常见的数据挖掘工具与产品。第8-11为实验部分,采用Mahout实践数据挖掘各类算法。
《普通高等教育“十三五”应用型人才培养规划教材 数据处理与知识发现》目录

上篇 理论部分 2

第1章 绪论 2

1.1 KDD与数据挖掘 2

1.1.1 KDD的定义 2

1.1.2 KDD过程与数据挖掘 3

1.2数据挖掘的对象 4

1.3数据挖掘的任务 8

1.4 Mahout简介 12

1.4.1 Mahout 12

1.4.2 Mahout算法库 13

1.4.3 Mahout应用 16

1.5小结 17

1.6习题 17

第2章 数据预处理 18

2.1数据概述 18

2.1.1属性与度量 19

2.1.2数据集的类型 23

2.2数据预处理 27

2.2.1数据预处理概述 28

2.2.2数据清理 30

2.2.3数据集成 34

2.2.4数据变换 38

2.2.5数据归约 40

2.2.6离散化与概念分层 48

2.3小结 52

2.4习题 53

第3章 数据仓库 55

3.1数据仓库概述 55

3.1.1从数据库到数据仓库 55

3.1.2数据仓库 56

3.1.3数据仓库系统结构 59

3.1.4数据仓库中的名词 59

3.2数据仓库的ETL 60

3.2.1 ETL的基本概念 60

3.2.2 ETL的工具 60

3.3元数据与外部数据 62

3.3.1元数据的定义 62

3.3.2元数据的存储与管理 63

3.3.3外部数据 64

3.4数据仓库模型及数据仓库的建立 65

3.4.1多维数据模型 65

3.4.2多维数据模型的建立 67

3.5联机分析处理OLAP技术 73

3.5.1 OLAP概述 73

3.5.2 OLAP与数据仓库 75

3.5.3 OLAP的模型 77

3.5.4 OLAP的基本操作 79

3.6数据仓库实例 80

3.6.1数据仓库的创建 81

3.6.2数据的提取、转换和加载 83

3.7小结 83

3.8习题 83

第4章 关联规则挖掘 84

4.1问题定义 85

4.1.1购物篮分析 85

4.1.2基本术语 85

4.2频繁项集的产生 87

4.2.1先验原理 88

4.2.2 Apriori算法的频繁项集产生 90

4.3规则产生 94

4.3.1基于置信度的剪枝 94

4.3.2 Apriori算法中规则的产生 94

4.4 FP-growth算法 95

4.5多层关联规则和多维关联规则 99

4.5.1多层关联规则 99

4.5.2多维关联规则 102

4.6非二元属性的关联规则 103

4.7关联规则的评估 104

4.8序列模式挖掘算法 106

4.8.1序列模式的概念 106

4.8.2 Apriori类算法——AprioriAll算法 109

4.9小结 114

4.10习题 115

第5章 聚类分析方法 118

5.1聚类分析概述 118

5.1.1聚类的定义 118

5.1.2聚类算法的要求 119

5.1.3聚类算法的分类 120

5.1.4相似性的测度 121

5.2基于划分的聚类算法 126

5.2.1基于质心的(Centroid-based)划分方法——基本K-means聚类算法 126

5.2.2 K-means聚类算法的拓展 128

5.2.3基于中心的(Medoid-based)划分方法——PAM算法 130

5.3层次聚类算法 133

5.3.1 AGNES算法 135

5.3.2 DIANA算法 136

5.3.3改进算法——BIRCH算法 137

5.3.4改进算法——CURE算法 141

5.4基于密度的聚类算法 143

5.5聚类算法评价 147

5.6离群点挖掘 149

5.6.1相关问题概述 149

5.6.2基于距离的方法 150

5.6.3基于相对密度的方法 154

5.7小结 158

5.8习题 158

第6章 分类规则挖掘 160

6.1分类问题概述 160

6.2最近邻分类法 162

6.2.1 KNN算法原理 162

6.2.2 KNN算法的特点及改进 165

6.2.3基于应用平台的KNN算法应用实例 166

6.3决策树分类方法 167

6.3.1决策树概述 167

6.3.2信息论 171

6.3.3 ID3算法 172

6.3.4算法改进:C4.5算法 176

6.4贝叶斯分类方法 180

6.4.1贝叶斯定理 181

6.4.2朴素贝叶斯分类器 183

6.4.3朴素贝叶斯分类方法的改进 185

6.5神经网络算法 188

6.5.1前馈神经网络概述 188

6.5.2学习前馈神经网络 189

6.5.3 BP神经网络模型与学习算法 191

6.6回归分析 193

6.7小结 196

6.8习题 197

第7章 数据挖掘工具与产品 198

7.1评价数据挖掘产品的标准 198

7.2数据挖掘工具简介 200

7.3数据挖掘的可视化 203

7.3.1数据挖掘可视化的过程与方法 203

7.3.2数据挖掘可视化的分类 204

7.3.3数据挖掘可视化的工具 206

7.4 Weka 207

7.4.1 Weka Explorer 208

7.4.2 Weka Experimenter 216

7.4.3 KnowledgeFlow 219

7.5小结 221

7.6习题 221

下篇 实验部分 224

第8章 Mahout入门 224

8.1 Mahout安装前的准备 224

8.1.1安装JDK 224

8.1.2安装Hadoop 227

8.2 Mahout的安装 237

8.3测试安装 238

8.4小结 239

第9章 使用Mahout实践关联规则算法 240

9.1 FP树关联规则算法 240

9.1.1 Mahout中Parallel Frequent Patte Mining算法的实现原理 240

9.1.2 Mahout的Parallel Frequent Pattern Mining算法实践 243

9.2小结 246

第10章 使用Mahout实践聚类算法 247

10.1 Canopy算法 247

10.1.1 Mahout中Canopy算法的实现原理 250

10.1.2 Mahout中Canopy算法实战 251

10.2 K-means算法 254

10.2.1 Mahout中K-means算法的实现原理 255

10.2.2 Mahout中K-means算法实战 256

10.3小结 259

第11章 使用Mahout实践分类算法 260

11.1 Bayesian算法 260

11.1.1 Mahout中Bayesian算法的实现原理 261

11.1.2 Mahout的Bayesian算法实战 262

11.2 Random Forests算法 270

11.2.1 Mahout中Random Forests算法的实现原理 272

11.2.2 Mahout的Random Forests算法实战 275

11.3小结 279

参考文献 280

返回顶部