数据挖掘 实用机器学习工具与技术 原书第4版PDF电子书下载
- 电子书积分:14 积分如何计算积分?
- 作 者:(新西兰)伊恩H.威腾,埃贝·弗兰克,马克A.霍尔著
- 出 版 社:北京:机械工业出版社
- 出版年份:2018
- ISBN:9787111589167
- 页数:418 页
第一部分 数据挖掘基础 2
第1章 绪论 2
1.1数据挖掘和机器学习 2
1.1.1描述结构模式 3
1.1.2机器学习 5
1.1.3数据挖掘 6
1.2简单的例子:天气问题和其他问题 6
1.2.1天气问题 6
1.2.2隐形眼镜:一个理想化的问题 8
1.2.3鸢尾花:一个经典的数值型数据集 9
1.2.4 CPU性能:引入数值预测 10
1.2.5劳资协商:一个更真实的例子 11
1.2.6大豆分类:一个经典的机器学习的成功例子 12
1.3应用领域 14
1.3.1 Web挖掘 14
1.3.2包含判断的决策 15
1.3.3图像筛选 15
1.3.4负载预测 16
1.3.5诊断 17
1.3.6市场和销售 17
1.3.7其他应用 18
1.4数据挖掘过程 19
1.5机器学习和统计学 20
1.6将泛化看作搜索 21
1.6.1枚举概念空间 22
1.6.2偏差 22
1.7数据挖掘和道德问题 24
1.7.1再识别 24
1.7.2使用个人信息 25
1.7.3其他问题 26
1.8拓展阅读及参考文献 26
第2章 输入:概念、实例和属性 29
2.1概念 29
2.2实例 31
2.2.1关系 31
2.2.2其他实例类型 34
2.3属性 35
2.4输入准备 36
2.4.1数据收集 37
2.4.2 ARFF格式 37
2.4.3稀疏数据 39
2.4.4属性类型 40
2.4.5缺失值 41
2.4.6不正确的值 42
2.4.7非均衡数据 42
2.4.8了解数据 43
2.5拓展阅读及参考文献 43
第3章 输出:知识表达 44
3.1表 44
3.2线性模型 44
3.3树 46
3.4规则 49
3.4.1分类规则 49
3.4.2关联规则 52
3.4.3包含例外的规则 53
3.4.4表达能力更强的规则 54
3.5基于实例的表达 56
3.6聚类 58
3.7拓展阅读及参考文献 59
第4章 算法:基本方法 60
4.1推断基本规则 60
4.2简单概率模型 63
4.2.1缺失值和数值属性 65
4.2.2用于文档分类的朴素贝叶斯 67
4.2.3讨论 68
4.3分治法:创建决策树 69
4.3.1计算信息量 71
4.3.2高度分支属性 73
4.4覆盖算法:建立规则 74
4.4.1规则与树 75
4.4.2一个简单的覆盖算法 76
4.4.3规则与决策列表 79
4.5关联规则挖掘 79
4.5.1项集 80
4.5.2关联规则 81
4.5.3高效地生成规则 84
4.6线性模型 86
4.6.1数值预测:线性回归 86
4.6.2线性分类:logistic回归 87
4.6.3使用感知机的线性分类 89
4.6.4使用Winnow的线性分类 90
4.7基于实例的学习 91
4.7.1 距离函数 92
4.7.2高效寻找最近邻 92
4.7.3讨论 96
4.8聚类 96
4.8.1基于距离的迭代聚类 97
4.8.2更快的距离计算 98
4.8.3选择簇的个数 99
4.8.4层次聚类 100
4.8.5层次聚类示例 101
4.8.6增量聚类 102
4.8.7分类效用 104
4.8.8讨论 106
4.9多实例学习 107
4.9.1聚集输入 107
4.9.2聚集输出 107
4.10拓展阅读及参考文献 108
4.11 Weka实现 109
第5章 可信度:评估学习结果 111
5.1训练和测试 111
5.2预测性能 113
5.3交叉验证 115
5.4其他评估方法 116
5.4.1留一交叉验证法 116
5.4.2自助法 116
5.5超参数选择 117
5.6数据挖掘方法比较 118
5.7预测概率 121
5.7.1二次损失函数 121
5.7.2信息损失函数 122
5.7.3讨论 123
5.8计算成本 123
5.8.1成本敏感分类 125
5.8.2成本敏感学习 126
5.8.3提升图 126
5.8.4 ROC曲线 129
5.8.5召回率-精确率曲线 130
5.8.6讨论 131
5.8.7成本曲线 132
5.9评估数值预测 134
5.10最小描述长度原理 136
5.11将MDL原理应用于聚类 138
5.12使用验证集进行模型选择 138
5.13拓展阅读及参考文献 139
第二部分 高级机器学习方案 144
第6章 树和规则 144
6.1决策树 144
6.1.1数值属性 144
6.1.2缺失值 145
6.1.3剪枝 146
6.1.4估计误差率 147
6.1.5决策树归纳法的复杂度 149
6.1.6从决策树到规则 150
6.1.7 C4.5:选择和选项 150
6.1.8成本-复杂度剪枝 151
6.1.9讨论 151
6.2分类规则 152
6.2.1选择测试的标准 152
6.2.2缺失值和数值属性 153
6.2.3生成好的规则 153
6.2.4使用全局优化 155
6.2.5从局部决策树中获得规则 157
6.2.6包含例外的规则 158
6.2.7讨论 160
6.3关联规则 161
6.3.1建立频繁模式树 161
6.3.2寻找大项集 163
6.3.3讨论 166
6.4 Weka实现 167
第7章 基于实例的学习和线性模型的扩展 168
7.1基于实例的学习 168
7.1.1减少样本集的数量 168
7.1.2对噪声样本集剪枝 169
7.1.3属性加权 170
7.1.4泛化样本集 170
7.1.5用于泛化样本集的距离函数 171
7.1.6泛化的距离函数 172
7.1.7讨论 172
7.2扩展线性模型 173
7.2.1最大间隔超平面 173
7.2.2非线性类边界 174
7.2.3支持向量回归 176
7.2.4核岭回归 177
7.2.5核感知机 178
7.2.6多层感知机 179
7.2.7径向基函数网络 184
7.2.8随机梯度下降 185
7.2.9讨论 186
7.3局部线性模型用于数值预测 187
7.3.1模型树 187
7.3.2构建树 188
7.3.3对树剪枝 188
7.3.4名目属性 189
7.3.5缺失值 189
7.3.6模型树归纳的伪代码 190
7.3.7从模型树到规则 192
7.3.8局部加权线性回归 192
7.3.9讨论 193
7.4 Weka实现 194
第8章 数据转换 195
8.1属性选择 196
8.1.1独立于方案的选择 197
8.1.2搜索属性空间 199
8.1.3具体方案相关的选择 200
8.2离散化数值属性 201
8.2.1无监督离散化 202
8.2.2基于熵的离散化 203
8.2.3其他离散化方法 205
8.2.4基于熵和基于误差的离散化 205
8.2.5将离散属性转换成数值属性 206
8.3投影 207
8.3.1主成分分析 207
8.3.2随机投影 209
8.3.3偏最小二乘回归 209
8.3.4独立成分分析 210
8.3.5线性判别分析 211
8.3.6二次判别分析 211
8.3.7 Fisher线性判别分析 211
8.3.8从文本到属性向量 212
8.3.9时间序列 213
8.4抽样 214
8.5数据清洗 215
8.5.1改进决策树 215
8.5.2稳健回归 215
8.5.3检测异常 216
8.5.4一分类学习 217
8.5.5离群点检测 217
8.5.6生成人工数据 218
8.6将多分类问题转换成二分类问题 219
8.6.1简单方法 219
8.6.2误差校正输出编码 220
8.6.3集成嵌套二分法 221
8.7校准类概率 223
8.8拓展阅读及参考文献 224
8.9 Weka实现 226
第9章 概率方法 228
9.1基础 228
9.1.1最大似然估计 229
9.1.2最大后验参数估计 230
9.2贝叶斯网络 230
9.2.1预测 231
9.2.2学习贝叶斯网络 233
9.2.3具体算法 235
9.2.4用于快速学习的数据结构 237
9.3聚类和概率密度估计 239
9.3.1用于高斯混合模型的期望最大化算法 239
9.3.2扩展混合模型 242
9.3.3使用先验分布聚类 243
9.3.4相关属性聚类 244
9.3.5核密度估计 245
9.3.6比较用于分类的参数、半参数和无参数的密度模型 245
9.4隐藏变量模型 246
9.4.1对数似然和梯度的期望 246
9.4.2期望最大化算法 247
9.4.3将期望最大化算法应用于贝叶斯网络 248
9.5贝叶斯估计与预测 249
9.6图模型和因子图 251
9.6.1图模型和盘子表示法 251
9.6.2概率主成分分析 252
9.6.3隐含语义分析 254
9.6.4使用主成分分析来降维 255
9.6.5概率LSA 256
9.6.6隐含狄利克雷分布 257
9.6.7因子图 258
9.6.8马尔可夫随机场 260
9.6.9使用sum-product算法和max-product算法进行计算 261
9.7条件概率模型 265
9.7.1概率模型的线性和多项式回归 265
9.7.2使用先验参数 266
9.7.3多分类logistic回归 268
9.7.4梯度下降和二阶方法 271
9.7.5广义线性模型 271
9.7.6有序类的预测 272
9.7.7使用核函数的条件概率模型 273
9.8时序模型 273
9.8.1马尔可夫模型和N元法 273
9.8.2隐马尔可夫模型 274
9.8.3条件随机场 275
9.9拓展阅读及参考文献 278
9.10 Weka实现 282
第10章 深度学习 283
10.1深度前馈网络 284
10.1.1 MNIST评估 284
10.1.2损失和正则化 285
10.1.3深层网络体系结构 286
10.1.4激活函数 287
10.1.5重新审视反向传播 288
10.1.6计算图以及复杂的网络结构 290
10.1.7验证反向传播算法的实现 291
10.2训练和评估深度网络 292
10.2.1早停 292
10.2.2验证、交叉验证以及超参数调整 292
10.2.3小批量随机梯度下降 293
10.2.4小批量随机梯度下降的伪代码 294
10.2.5学习率和计划 294
10.2.6先验参数的正则化 295
10.2.7丢弃法 295
10.2.8批规范化 295
10.2.9参数初始化 295
10.2.10无监督的预训练 296
10.2.11数据扩充和合成转换 296
10.3卷积神经网络 296
10.3.1 ImageNet评估和深度卷积神经网络 297
10.3.2从图像滤波到可学习的卷积层 297
10.3.3卷积层和梯度 300
10.3.4池化层二次抽样层以及梯度 300
10.3.5实现 301
10.4自编码器 301
10.4.1使用RBM预训练深度自编码器 302
10.4.2降噪自编码器和分层训练 304
10.4.3重构和判别式学习的结合 304
10.5随机深度网络 304
10.5.1玻尔兹曼机 304
10.5.2受限玻尔兹曼机 306
10.5.3对比分歧 306
10.5.4分类变量和连续变量 306
10.5.5深度玻尔兹曼机 307
10.5.6深度信念网络 308
10.6递归神经网络 309
10.6.1梯度爆炸与梯度消失 310
10.6.2其他递归网络结构 311
10.7拓展阅读及参考文献 312
10.8深度学习软件以及网络实现 315
10.8.1 Theano 315
10.8.2 Tensor Flow 315
10.8.3 Torch 315
10.8.4 CNTK 315
10.8.5 Caffe 315
10.8.6 DeepLearning4j 316
10.8.7其他包:Lasagne、Keras以及cuDNN 316
10.9 Weka实现 316
第11章 有监督和无监督学习 317
11.1半监督学习 317
11.1.1用以分类的聚类 317
11.1.2协同训练 318
11.1.3 EM和协同训练 319
11.1.4神经网络方法 319
11.2多实例学习 320
11.2.1转换为单实例学习 320
11.2.2升级学习算法 321
11.2.3专用多实例方法 322
11.3拓展阅读及参考文献 323
11.4 Weka实现 323
第12章 集成学习 325
12.1组合多种模型 325
12.2装袋 326
12.2.1偏差-方差分解 326
12.2.2考虑成本的装袋 327
12.3随机化 328
12.3.1随机化与装袋 328
12.3.2旋转森林 329
12.4提升 329
12.4.1 AdaBoost算法 330
12.4.2提升算法的威力 331
12.5累加回归 332
12.5.1数值预测 332
12.5.2累加logistic回归 333
12.6可解释的集成器 334
12.6.1选择树 334
12.6.2 logistic模型树 336
12.7堆栈 336
12.8拓展阅读及参考文献 338
12.9 Weka实现 339
第13章 扩展和应用 340
13.1应用机器学习 340
13.2从大型的数据集学习 342
13.3数据流学习 344
13.4融合领域知识 346
13.5文本挖掘 347
13.5.1文档分类与聚类 348
13.5.2信息提取 349
13.5.3自然语言处理 350
13.6 Web挖掘 350
13.6.1包装器归纳 351
13.6.2网页分级 351
13.7图像和语音 353
13.7.1图像 353
13.7.2语音 354
13.8对抗情形 354
13.9无处不在的数据挖掘 355
13.10拓展阅读及参考文献 357
13.11 Weka实现 359
附录A 理论基础 360
附录B Weka工作平台 375
索引 388
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《智能制造高技能人才培养规划丛书 ABB工业机器人虚拟仿真教程》(中国)工控帮教研组 2019
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《全国职业院校工业机器人技术专业规划教材 工业机器人现场编程》(中国)项万明 2019
- 《至暗时刻 力挽狂澜的丘吉尔》(新西兰)安东尼·麦卡滕 2019
- 《艺术中的经典文学形象与故事》(意)弗兰切斯卡·佩莱格里诺,(意)费代里科·皮波莱蒂 2019
- 《给演员的简单手册》(意)达里奥·福,(意)弗兰卡·拉梅(Franca Rame)著 2019
- 《列王的纷争 新兵》郑伟悦译;(新西兰)史蒂芬·利顿 2019
- 《双鸟渡》(爱尔兰)弗兰·奥布莱恩(FlannO 2019
- 《35亿年的生命物语 全》(美)约翰·H.布瑞德雷著;田琳译 2017
- 《变形记》(奥地利)弗兰兹·卡夫卡 2019
- 《小号教练 小号入门基础教程》葛哈德·福莱茵格,哈位尔德·索瓦,弗兰茨·瓦格纳迈耶著 2018
- 《毒理学试验原理 原著第2版》(美)弗兰克·巴里莱著;胡清源译 2019
- 《大太平洋》祝茜,曾千慧译;(新西兰)丽贝卡·坦斯利著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《高等教育双机械基础课程系列教材 高等学校教材 机械设计课程设计手册 第5版》吴宗泽,罗圣国,高志,李威 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017
- 《新工业时代 世界级工业家张毓强和他的“新石头记”》秦朔 2019
- 《智能制造高技能人才培养规划丛书 ABB工业机器人虚拟仿真教程》(中国)工控帮教研组 2019
- 《AutoCAD机械设计实例精解 2019中文版》北京兆迪科技有限公司编著 2019