图灵程序设计丛书 预测分析与数据挖掘 RapidMiner实现PDF电子书下载
- 电子书积分:12 积分如何计算积分?
- 作 者:(美)瓦杰·考图(Vijay Kotu)著;严云译
- 出 版 社:北京:人民邮电出版社
- 出版年份:2018
- ISBN:9787115473660
- 页数:326 页
第1章 引言 1
1.1什么是数据挖掘 2
1.1.1有意义模式的提取 2
1.1.2代表性模型的构建 2
1.1.3统计、机器学习和计算的搭配 3
1.1.4算法 4
1.2对数据挖掘的误解 4
1.3数据挖掘的初衷 5
1.3.1海量数据 5
1.3.2多维 6
1.3.3复杂问题 6
1.4数据挖掘的种类 7
1.5数据挖掘的算法 8
1.6后续章节导览 9
1.6.1数据挖掘的序曲 9
1.6.2小插曲 10
1.6.3主要内容:预测分析和数据挖掘算法 10
1.6.4特别应用 12
参考文献 13
第2章 数据挖掘流程 14
2.1先验知识 16
2.1.1目标 16
2.1.2研究问题的背景 17
2.1.3数据 17
2.1.4因果性与相关性 18
2.2数据准备 19
2.2.1数据探索 19
2.2.2数据质量 20
2.2.3缺失值 20
2.2.4数据类型和转换 20
2.2.5数据转换 21
2.2.6离群点 21
2.2.7特征选择 21
2.2.8 数据采样 22
2.3建模 22
2.3.1训练集和测试集 23
2.3.2建模算法 24
2.3.3模型评估 25
2.3.4 集成建模 26
2.4应用 27
2.4.1生产准备 27
2.4.2方法整合 27
2.4.3响应时间 28
2.4.4重构模型 28
2.4.5知识融合 28
2.5新旧知识 29
2.6后续章节预告 29
参考文献 29
第3章 数据探索 31
3.1数据探索的目标 31
3.2走进数据 32
3.3描述性统计分析 34
3.3.1单变量探索 35
3.3.2多变量探索 36
3.4数据可视化 39
3.4.1一个维度内数据频率分布的可视化 39
3.4.2直角坐标系内多变量的可视化 43
3.4.3高维数据通过投影的可视化 48
3.5数据探索导览 50
参考文献 51
第4章 分类 52
4.1决策树 52
4.1.1算法原理 53
4.1.2算法实现 59
4.1.3小结 71
4.2规则归纳 72
4.2.1建立规则方法 73
4.2.2算法原理 74
4.2.3算法实现 77
4.2.4小结 81
4.3 k近邻算法 81
4.3.1算法原理 82
4.3.2算法实现 88
4.3.3小结 91
4.4朴素贝叶斯 91
4.4.1算法原理 93
4.4.2算法实现 100
4.4.3小结 102
4.5人工神经网络 102
4.5.1算法原理 105
4.5.2 算法实现 108
4.5.3小结 110
4.6支持向量机 111
4.6.1概念和术语 111
4.6.2算法原理 114
4.6.3算法实现 116
4.6.4小结 122
4.7集成学习模型 122
4.7.1集体的智慧 123
4.7.2算法原理 124
4.7.3算法实现 126
4.7.4小结 134
参考文献 134
第5章 回归方法 137
5.1线性回归 139
5.1.1算法原理 139
5.1.2使用RapidMiner实战的目标与数据 141
5.1.3算法实现 142
5.1.4线性回归建模要点 148
5.2 Logistic回归 149
5.2.1快速入门Logistic回归 150
5.2.2模型原理 151
5.2.3模型实现 155
5.2.4 Logistic回归小结 158
5.3总结 158
参考文献 158
第6章 关联分析 160
6.1挖掘关联规则的基本概念 161
6.1.1项集 162
6.1.2生成关联规则的一般步骤 164
6.2 Apriori算法 166
6.2.1使用Apriori算法找出高频项集 167
6.2.2生成关联规则 169
6.3 FP-Growth算法 169
6.3.1生成FP树 170
6.3.2高频项集的生成 172
6.3.3 FP-Growth算法实现 173
6.4总结 176
参考文献 176
第7章 聚类 178
7.1聚类方法的种类 179
7.2 k均值聚类 182
7.2.1 k均值聚类原理 183
7.2.2算法实现 187
7.3 DBSCAN聚类 191
7.3.1算法原理 192
7.3.2算法实现 195
7.3.3小结 197
7.4 SOM 197
7.4.1算法原理 199
7.4.2算法实现 202
7.4.3小结 208
参考文献 208
第8章 模型评估 210
8.1混淆矩阵 210
8.2 ROC曲线和AUC 212
8.3提升曲线 214
8.4评估预测结果 217
8.5总结 221
参考文献 221
第9章 文本挖掘 222
9.1文本挖掘算法的原理 223
9.1.1 TF-IDF 223
9.1.2术语和概念 225
9.2使用聚类和分类算法实现文本挖掘 229
9.2.1实例1:关键词聚类 229
9.2.2实例2:预测博客作者的性别 232
9.3总结 241
参考文献 242
第10章 时间序列预测 243
10.1基于数据的时序分析 245
10.1.1朴素预测法 245
10.1.2简单平均法 246
10.1.3移动平均法 246
10.1.4加权移动平均法 247
10.1.5指数平滑法 247
10.1.6 Holt双参数指数平滑法 248
10.1.7 Holt-Winter三参数指数平滑法 249
10.2基于模型的预测方法 250
10.2.1线性回归 251
10.2.2多项式回归 252
10.2.3考虑季节性的线性回归模型 252
10.2.4自回归模型与ARIMA 254
10.2.5基于RapidMiner的实现 254
10.3总结 261
参考文献 261
第11章 异常检测 262
11.1异常检测的基本概念 262
11.1.1出现离群点的原因 262
11.1.2异常检测的方法 264
11.2基于距离的离群点检测方法 266
11.2.1方法原理 267
11.2.2方法实现 268
11.3基于密度的离群点检测方法 270
11.3.1方法原理 270
11.3.2方法实现 271
11.4局部离群因子 272
11.5总结 274
参考文献 275
第12章 特征选择 276
12.1特征选择方法概览 276
12.2主成分分析 278
12.2.1算法原理 279
12.2.2 算法实现 280
12.3以信息论为基础对数值型数据进行筛选 284
12.4以卡方检验为基础对类别型数据进行筛选 286
12.5基于封装器的特征选择 289
12.5.1向后消除法以缩减数据集大小 290
12.5.2哪些变量被消除了 292
12.6总结 293
参考文献 294
第13章RapidMiner入门 295
13.1用户操作界面以及介绍 295
13.1.1图形用户操作界面的介绍 295
13.1.2 RapidMiner软件的术语 296
13.2数据导入和导出工具 299
13.3数据可视化工具 302
13.3.1单一变量可视化 304
13.3.2二维数据可视化 304
13.3.3多维数据可视化 304
13.4数据转换工具 305
13.5数据抽样与处理缺失值工具 309
13.6最优化工具 312
13.7总结 317
参考文献 317
数据挖掘算法的比较 319
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《设计十六日 国内外美术院校报考攻略》沈海泯著 2018
- 《计算机辅助平面设计》吴轶博主编 2019
- 《高校转型发展系列教材 素描基础与设计》施猛责任编辑;(中国)魏伏一,徐红 2019
- 《景观艺术设计》林春水,马俊 2019
- 《程序逻辑及C语言编程》卢卫中,杨丽芳主编 2019
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《办好人民满意的教育 全国教育满意度调查报告》(中国)中国教育科学研究院 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《人民院士》吴娜著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《中国人民的心》杨朔著;夕琳编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中华人民共和国成立70周年优秀文学作品精选 短篇小说卷 上 全2册》贺邵俊主编 2019
- 《指向核心素养 北京十一学校名师教学设计 数学 九年级 上 配人教版》周志英总主编 2019
- 《中华人民共和国成立70周年优秀文学作品精选 中篇小说卷 下 全3册》洪治纲主编 2019