普通高等教育“十三五”应用型人才培养规划教材 数据处理与知识发现PDF电子书下载
- 电子书积分:11 积分如何计算积分?
- 作 者:徐琴,刘智珺主编;王晶副主编;黄向宇参编
- 出 版 社:北京:机械工业出版社
- 出版年份:2018
- ISBN:9787111605843
- 页数:280 页
上篇 理论部分 2
第1章 绪论 2
1.1 KDD与数据挖掘 2
1.1.1 KDD的定义 2
1.1.2 KDD过程与数据挖掘 3
1.2数据挖掘的对象 4
1.3数据挖掘的任务 8
1.4 Mahout简介 12
1.4.1 Mahout 12
1.4.2 Mahout算法库 13
1.4.3 Mahout应用 16
1.5小结 17
1.6习题 17
第2章 数据预处理 18
2.1数据概述 18
2.1.1属性与度量 19
2.1.2数据集的类型 23
2.2数据预处理 27
2.2.1数据预处理概述 28
2.2.2数据清理 30
2.2.3数据集成 34
2.2.4数据变换 38
2.2.5数据归约 40
2.2.6离散化与概念分层 48
2.3小结 52
2.4习题 53
第3章 数据仓库 55
3.1数据仓库概述 55
3.1.1从数据库到数据仓库 55
3.1.2数据仓库 56
3.1.3数据仓库系统结构 59
3.1.4数据仓库中的名词 59
3.2数据仓库的ETL 60
3.2.1 ETL的基本概念 60
3.2.2 ETL的工具 60
3.3元数据与外部数据 62
3.3.1元数据的定义 62
3.3.2元数据的存储与管理 63
3.3.3外部数据 64
3.4数据仓库模型及数据仓库的建立 65
3.4.1多维数据模型 65
3.4.2多维数据模型的建立 67
3.5联机分析处理OLAP技术 73
3.5.1 OLAP概述 73
3.5.2 OLAP与数据仓库 75
3.5.3 OLAP的模型 77
3.5.4 OLAP的基本操作 79
3.6数据仓库实例 80
3.6.1数据仓库的创建 81
3.6.2数据的提取、转换和加载 83
3.7小结 83
3.8习题 83
第4章 关联规则挖掘 84
4.1问题定义 85
4.1.1购物篮分析 85
4.1.2基本术语 85
4.2频繁项集的产生 87
4.2.1先验原理 88
4.2.2 Apriori算法的频繁项集产生 90
4.3规则产生 94
4.3.1基于置信度的剪枝 94
4.3.2 Apriori算法中规则的产生 94
4.4 FP-growth算法 95
4.5多层关联规则和多维关联规则 99
4.5.1多层关联规则 99
4.5.2多维关联规则 102
4.6非二元属性的关联规则 103
4.7关联规则的评估 104
4.8序列模式挖掘算法 106
4.8.1序列模式的概念 106
4.8.2 Apriori类算法——AprioriAll算法 109
4.9小结 114
4.10习题 115
第5章 聚类分析方法 118
5.1聚类分析概述 118
5.1.1聚类的定义 118
5.1.2聚类算法的要求 119
5.1.3聚类算法的分类 120
5.1.4相似性的测度 121
5.2基于划分的聚类算法 126
5.2.1基于质心的(Centroid-based)划分方法——基本K-means聚类算法 126
5.2.2 K-means聚类算法的拓展 128
5.2.3基于中心的(Medoid-based)划分方法——PAM算法 130
5.3层次聚类算法 133
5.3.1 AGNES算法 135
5.3.2 DIANA算法 136
5.3.3改进算法——BIRCH算法 137
5.3.4改进算法——CURE算法 141
5.4基于密度的聚类算法 143
5.5聚类算法评价 147
5.6离群点挖掘 149
5.6.1相关问题概述 149
5.6.2基于距离的方法 150
5.6.3基于相对密度的方法 154
5.7小结 158
5.8习题 158
第6章 分类规则挖掘 160
6.1分类问题概述 160
6.2最近邻分类法 162
6.2.1 KNN算法原理 162
6.2.2 KNN算法的特点及改进 165
6.2.3基于应用平台的KNN算法应用实例 166
6.3决策树分类方法 167
6.3.1决策树概述 167
6.3.2信息论 171
6.3.3 ID3算法 172
6.3.4算法改进:C4.5算法 176
6.4贝叶斯分类方法 180
6.4.1贝叶斯定理 181
6.4.2朴素贝叶斯分类器 183
6.4.3朴素贝叶斯分类方法的改进 185
6.5神经网络算法 188
6.5.1前馈神经网络概述 188
6.5.2学习前馈神经网络 189
6.5.3 BP神经网络模型与学习算法 191
6.6回归分析 193
6.7小结 196
6.8习题 197
第7章 数据挖掘工具与产品 198
7.1评价数据挖掘产品的标准 198
7.2数据挖掘工具简介 200
7.3数据挖掘的可视化 203
7.3.1数据挖掘可视化的过程与方法 203
7.3.2数据挖掘可视化的分类 204
7.3.3数据挖掘可视化的工具 206
7.4 Weka 207
7.4.1 Weka Explorer 208
7.4.2 Weka Experimenter 216
7.4.3 KnowledgeFlow 219
7.5小结 221
7.6习题 221
下篇 实验部分 224
第8章 Mahout入门 224
8.1 Mahout安装前的准备 224
8.1.1安装JDK 224
8.1.2安装Hadoop 227
8.2 Mahout的安装 237
8.3测试安装 238
8.4小结 239
第9章 使用Mahout实践关联规则算法 240
9.1 FP树关联规则算法 240
9.1.1 Mahout中Parallel Frequent Patte Mining算法的实现原理 240
9.1.2 Mahout的Parallel Frequent Pattern Mining算法实践 243
9.2小结 246
第10章 使用Mahout实践聚类算法 247
10.1 Canopy算法 247
10.1.1 Mahout中Canopy算法的实现原理 250
10.1.2 Mahout中Canopy算法实战 251
10.2 K-means算法 254
10.2.1 Mahout中K-means算法的实现原理 255
10.2.2 Mahout中K-means算法实战 256
10.3小结 259
第11章 使用Mahout实践分类算法 260
11.1 Bayesian算法 260
11.1.1 Mahout中Bayesian算法的实现原理 261
11.1.2 Mahout的Bayesian算法实战 262
11.2 Random Forests算法 270
11.2.1 Mahout中Random Forests算法的实现原理 272
11.2.2 Mahout的Random Forests算法实战 275
11.3小结 279
参考文献 280
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《钒产业技术及应用》高峰,彭清静,华骏主编 2019
- 《现代水泥技术发展与应用论文集》天津水泥工业设计研究院有限公司编 2019
- 《英汉翻译理论的多维阐释及应用剖析》常瑞娟著 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《区块链DAPP开发入门、代码实现、场景应用》李万胜著 2019
- 《虚拟流域环境理论技术研究与应用》冶运涛蒋云钟梁犁丽曹引等编著 2019
- 《当代翻译美学的理论诠释与应用解读》宁建庚著 2019
- 《第一性原理方法及应用》李青坤著 2019
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《高等教育双机械基础课程系列教材 高等学校教材 机械设计课程设计手册 第5版》吴宗泽,罗圣国,高志,李威 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017
- 《新工业时代 世界级工业家张毓强和他的“新石头记”》秦朔 2019
- 《智能制造高技能人才培养规划丛书 ABB工业机器人虚拟仿真教程》(中国)工控帮教研组 2019
- 《AutoCAD机械设计实例精解 2019中文版》北京兆迪科技有限公司编著 2019