数据挖掘 实用机器学习工具与技术 原书 第3版PDF电子书下载
- 电子书积分:15 积分如何计算积分?
- 作 者:(新西兰)威滕,(新西兰)弗兰克,(新西兰)霍尔著
- 出 版 社:北京:机械工业出版社
- 出版年份:2014
- ISBN:9787111453819
- 页数:464 页
第一部分 数据挖掘简介 2
第1章 绪论 2
1.1 数据挖掘和机器学习 2
1.1.1 描述结构模式 3
1.1.2 机器学习 5
1.1.3 数据挖掘 6
1.2 简单的例子:天气问题和其他问题 6
1.2.1 天气问题 7
1.2.2 隐形眼镜:一个理想化的问题 8
1.2.3 鸢尾花:一个经典的数值型数据集 10
1.2.4 CPU性能:介绍数值预测 11
1.2.5 劳资协商:一个更真实的例子 11
1.2.6 大豆分类:一个经典的机器学习的成功例子 13
1.3 应用领域 14
1.3.1 Web挖掘 15
1.3.2 包含评判的决策 15
1.3.3 图像筛选 16
1.3.4 负载预测 17
1.3.5 诊断 17
1.3.6 市场和销售 18
1.3.7 其他应用 19
1.4 机器学习和统计学 20
1.5 将泛化看做搜索 21
1.5.1 枚举概念空间 22
1.5.2 偏差 22
1.6 数据挖掘和道德 24
1.6.1 再识别 25
1.6.2 使用个人信息 25
1.6.3 其他问题 26
1.7 补充读物 27
第2章 输入:概念、实例和属性 29
2.1 概念 29
2.2 样本 31
2.2.1 关系 32
2.2.2 其他实例类型 34
2.3 属性 35
2.4 输入准备 37
2.4.1 数据收集 37
2.4.2 ARFF格式 38
2.4.3 稀疏数据 40
2.4.4 属性类型 40
2.4.5 缺失值 41
2.4.6 不正确的值 42
2.4.7 了解数据 43
2.5 补充读物 43
第3章 输出:知识表达 44
3.1 表 44
3.2 线性模型 44
3.3 树 45
3.4 规则 48
3.4.1 分类规则 49
3.4.2 关联规则 52
3.4.3 包含例外的规则 52
3.4.4 表达能力更强的规则 54
3.5 基于实例的表达 56
3.6 聚类 58
3.7 补充读物 60
第4章 算法:基本方法 61
4.1 推断基本规则 61
4.1.1 缺失值和数值属性 62
4.1.2 讨论 64
4.2 统计建模 64
4.2.1 缺失值和数值属性 67
4.2.2 用于文档分类的朴素贝叶斯 68
4.2.3 讨论 70
4.3 分治法:建立决策树 70
4.3.1 计算信息量 73
4.3.2 高度分支属性 74
4.3.3 讨论 75
4.4 覆盖算法:建立规则 76
4.4.1 规则与树 77
4.4.2 一个简单的覆盖算法 77
4.4.3 规则与决策列表 80
4.5 挖掘关联规则 81
4.5.1 项集 81
4.5.2 关联规则 83
4.5.3 有效地生成规则 85
4.5.4 讨论 87
4.6 线性模型 87
4.6.1 数值预测:线性回归 87
4.6.2 线性分类:Logistic回归 88
4.6.3 使用感知机的线性分类 90
4.6.4 使用Winnow的线性分类 91
4.7 基于实例的学习 92
4.7.1 距离函数 93
4.7.2 有效寻找最近邻 93
4.7.3 讨论 97
4.8 聚类 97
4.8.1 基于距离的迭代聚类 98
4.8.2 快速距离计算 99
4.8.3 讨论 100
4.9 多实例学习 100
4.9.1 聚集输入 100
4.9.2 聚集输出 100
4.9.3 讨论 101
4.10 补充读物 101
4.11 Weka实现 103
第5章 可信度:评估学习结果 104
5.1 训练和测试 104
5.2 预测性能 106
5.3 交叉验证 108
5.4 其他评估方法 109
5.4.1 留一交叉验证 109
5.4.2 自助法 109
5.5 数据挖掘方法比较 110
5.6 预测概率 113
5.6.1 二次损失函数 114
5.6.2 信息损失函数 115
5.6.3 讨论 115
5.7 计算成本 116
5.7.1 成本敏感分类 117
5.7.2 成本敏感学习 118
5.7.3 提升图 119
5.7.4 ROC曲线 122
5.7.5 召回率-精确率曲线 124
5.7.6 讨论 124
5.7.7 成本曲线 125
5.8 评估数值预测 127
5.9 最小描述长度原理 129
5.10 在聚类方法中应用MDL原理 131
5.11 补充读物 132
第二部分 高级数据挖掘 134
第6章 实现:真正的机器学习方案 134
6.1 决策树 135
6.1.1 数值属性 135
6.1.2 缺失值 136
6.1.3 剪枝 137
6.1.4 估计误差率 138
6.1.5 决策树归纳的复杂度 140
6.1.6 从决策树到规则 140
6.1.7 C4.5:选择和选项 141
6.1.8 成本-复杂度剪枝 141
6.1.9 讨论 142
6.2 分类规则 142
6.2.1 选择测试的标准 143
6.2.2 缺失值和数值属性 143
6.2.3 生成好的规则 144
6.2.4 使用全局优化 146
6.2.5 从局部决策树中获得规则 146
6.2.6 包含例外的规则 149
6.2.7 讨论 151
6.3 关联规则 152
6.3.1 建立频繁模式树 152
6.3.2 寻找大项集 157
6.3.3 讨论 157
6.4 扩展线性模型 158
6.4.1 最大间隔超平面 159
6.4.2 非线性类边界 160
6.4.3 支持向量回归 161
6.4.4 核岭回归 163
6.4.5 核感知机 164
6.4.6 多层感知机 165
6.4.7 径向基函数网络 171
6.4.8 随机梯度下降 172
6.4.9 讨论 173
6.5 基于实例的学习 174
6.5.1 减少样本集的数量 174
6.5.2 对噪声样本集剪枝 174
6.5.3 属性加权 175
6.5.4 泛化样本集 176
6.5.5 用于泛化样本集的距离函数 176
6.5.6 泛化的距离函数 177
6.5.7 讨论 178
6.6 局部线性模型用于数值预测 178
6.6.1 模型树 179
6.6.2 构建树 179
6.6.3 对树剪枝 180
6.6.4 名目属性 180
6.6.5 缺失值 181
6.6.6 模型树归纳的伪代码 181
6.6.7 从模型树到规则 184
6.6.8 局部加权线性回归 184
6.6.9 讨论 185
6.7 贝叶斯网络 186
6.7.1 预测 186
6.7.2 学习贝叶斯网络 189
6.7.3 算法细节 190
6.7.4 用于快速学习的数据结构 192
6.7.5 讨论 194
6.8 聚类 194
6.8.1 选择聚类的个数 195
6.8.2 层次聚类 195
6.8.3 层次聚类的例子 196
6.8.4 增量聚类 199
6.8.5 分类效用 203
6.8.6 基于概率的聚类 204
6.8.7 EM算法 205
6.8.8 扩展混合模型 206
6.8.9 贝叶斯聚类 207
6.8.1 0讨论 209
6.9 半监督学习 210
6.9.1 用于分类的聚类 210
6.9.2 协同训练 212
6.9.3 EM和协同训练 212
6.9.4 讨论 213
6.10 多实例学习 213
6.10.1 转换为单实例学习 213
6.10.2 升级学习算法 215
6.10.3 专用多实例方法 215
6.10.4 讨论 216
6.11 Weka实现 216
第7章 数据转换 218
7.1 属性选择 219
7.1.1 独立于方案的选择 220
7.1.2 搜索属性空间 222
7.1.3 具体方案相关的选择 223
7.2 离散化数值属性 225
7.2.1 无监督离散化 226
7.2.2 基于熵的离散化 226
7.2.3 其他离散化方法 229
7.2.4 基于熵的离散化与基于误差的离散化 229
7.2.5 离散属性转换成数值属性 230
7.3 投影 230
7.3.1 主成分分析 231
7.3.2 随机投影 233
7.3.3 偏最小二乘回归 233
7.3.4 从文本到属性向量 235
7.3.5 时间序列 236
7.4 抽样 236
7.5 数据清洗 237
7.5.1 改进决策树 237
7.5.2 稳健回归 238
7.5.3 检测异常 239
7.5.4 一分类学习 239
7.6 多分类问题转换成二分类问题 242
7.6.1 简单方法 242
7.6.2 误差校正输出编码 243
7.6.3 集成嵌套二分法 244
7.7 校准类概率 246
7.8 补充读物 247
7.9 Weka实现 249
第8章 集成学习 250
8.1 组合多种模型 250
8.2 装袋 251
8.2.1 偏差-方差分解 251
8.2.2 考虑成本的装袋 253
8.3 随机化 253
8.3.1 随机化与装袋 254
8.3.2 旋转森林 254
8.4 提升 255
8.4.1 AdaBoost算法 255
8.4.2 提升算法的威力 257
8.5 累加回归 258
8.5.1 数值预测 258
8.5.2 累加Logistic回归 259
8.6 可解释的集成器 260
8.6.1 选择树 260
8.6.2 Logistic模型树 262
8.7 堆栈 262
8.8 补充读物 264
8.9 Weka实现 265
第9章 继续:扩展和应用 266
9.1 应用数据挖掘 266
9.2 从大型的数据集里学习 268
9.3 数据流学习 270
9.4 融合领域知识 272
9.5 文本挖掘 273
9.6 Web挖掘 276
9.7 对抗情形 278
9.8 无处不在的数据挖掘 280
9.9 补充读物 281
第三部分 Weka数据挖掘平台 284
第10章 Weka简介 284
10.1 Weka中包含了什么 284
10.2 如何使用Weka 285
10.3 Weka的其他应用 286
10.4 如何得到Weka 286
第11章 Explorer界面 287
11.1 开始 287
11.1.1 准备数据 287
11.1.2 将数据载入Explorer 288
11.1.3 建立决策树 289
11.1.4 查看结果 290
11.1.5 重做一遍 292
11.1.6 运用模型 292
11.1.7 运行错误的处理 294
11.2 探索Explorer 294
11.2.1 载入及过滤文件 294
11.2.2 训练和测试学习方案 299
11.2.3 自己动手:用户分类器 301
11.2.4 使用元学习器 304
11.2.5 聚类和关联规则 305
11.2.6 属性选择 306
11.2.7 可视化 306
11.3 过滤算法 307
11.3.1 无监督属性过滤器 307
11.3.2 无监督实例过滤器 312
11.3.3 有监督过滤器 314
11.4 学习算法 316
11.4.1 贝叶斯分类器 317
11.4.2 树 320
11.4.3 规则 322
11.4.4 函数 325
11.4.5 神经网络 331
11.4.6 懒惰分类器 334
11.4.7 多实例分类器 335
11.4.8 杂项分类器 336
11.5 元学习算法 336
11.5.1 装袋和随机化 337
11.5.2 提升 338
11.5.3 组合分类器 338
11.5.4 成本敏感学习 339
11.5.5 优化性能 339
11.5.6 针对不同任务重新调整分类器 340
11.6 聚类算法 340
11.7 关联规则学习器 345
11.8 属性选择 346
11.8.1 属性子集评估器 347
11.8.2 单一属性评估器 347
11.8.3 搜索方法 348
第12章 Knowledge Flow界面 351
12.1 开始 351
12.2 Knowledge Flow组件 353
12.3 配置及连接组件 354
12.4 增量学习 356
第13章 Experimenter界面 358
13.1 开始 358
13.1.1 运行一个实验 358
13.1.2 分析结果 359
13.2 简单设置 362
13.3 高级设置 363
13.4 分析面板 365
13.5 将运行负荷分布到多个机器上 366
第14章 命令行界面 368
14.1 开始 368
14.2 Weka的结构 368
14.2.1 类、实例和包 368
14.2.2 weka.core包 370
14.2.3 weka.classifiers包 371
14.2.4 其他包 372
14.2.5 Javadoc索引 373
14.3 命令行选项 373
14.3.1 通用选项 374
14.3.2 与具体方案相关的选项 375
第15章 嵌入式机器学习 376
15.1 一个简单的数据挖掘应用 376
15.1.1 MessageClassifier() 380
15.1.2 updateData() 380
15.1.3 classifyMessage() 381
第16章 编写新的学习方案 382
16.1 一个分类器范例 382
16.1.1 buildClassifier() 389
16.1.2 makeTree() 389
16.1.3 computeInfoGain() 390
16.1.4 classifyInstance() 390
16.1.5 toSource() 391
16.1.6 main() 394
16.2 与实现分类器有关的惯例 395
第17章 Weka Explorer的辅导练习 397
17.1 Explorer界面简介 397
17.1.1 导入数据集 397
17.1.2 数据集编辑器 397
17.1.3 应用过滤器 398
17.1.4 可视化面板 399
17.1.5 分类器面板 399
17.2 最近邻学习和决策树 402
17.2.1 玻璃数据集 402
17.2.2 属性选择 403
17.2.3 类噪声以及最近邻学习 403
17.2.4 改变训练数据的数量 404
17.2.5 交互式建立决策树 405
17.3 分类边界 406
17.3.1 可视化1R 406
17.3.2 可视化最近邻学习 407
17.3.3 可视化朴素贝叶斯 407
17.3.4 可视化决策树和规则集 407
17.3.5 弄乱数据 408
17.4 预处理以及参数调整 408
17.4.1 离散化 408
17.4.2 离散化的更多方面 408
17.4.3 自动属性选择 409
17.4.4 自动属性选择的更多方面 410
17.4.5 自动参数调整 410
17.5 文档分类 411
17.5.1 包含字符串属性的数据 411
17.5.2 实际文档文类 412
17.5.3 探索StringToWordVector过滤器 413
17.6 挖掘关联规则 413
17.6.1 关联规则挖掘 413
17.6.2 挖掘一个真实的数据集 415
17.6.3 购物篮分析 415
参考文献 416
索引 431
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《智能制造高技能人才培养规划丛书 ABB工业机器人虚拟仿真教程》(中国)工控帮教研组 2019
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《全国职业院校工业机器人技术专业规划教材 工业机器人现场编程》(中国)项万明 2019
- 《至暗时刻 力挽狂澜的丘吉尔》(新西兰)安东尼·麦卡滕 2019
- 《艺术中的经典文学形象与故事》(意)弗兰切斯卡·佩莱格里诺,(意)费代里科·皮波莱蒂 2019
- 《给演员的简单手册》(意)达里奥·福,(意)弗兰卡·拉梅(Franca Rame)著 2019
- 《列王的纷争 新兵》郑伟悦译;(新西兰)史蒂芬·利顿 2019
- 《双鸟渡》(爱尔兰)弗兰·奥布莱恩(FlannO 2019
- 《变形记》(奥地利)弗兰兹·卡夫卡 2019
- 《小号教练 小号入门基础教程》葛哈德·福莱茵格,哈位尔德·索瓦,弗兰茨·瓦格纳迈耶著 2018
- 《毒理学试验原理 原著第2版》(美)弗兰克·巴里莱著;胡清源译 2019
- 《大太平洋》祝茜,曾千慧译;(新西兰)丽贝卡·坦斯利著 2019
- 《囚禁的天空》兰瑶责编;曾琳译;(新西兰)克莉丝汀·莱南斯 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《高等教育双机械基础课程系列教材 高等学校教材 机械设计课程设计手册 第5版》吴宗泽,罗圣国,高志,李威 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017
- 《新工业时代 世界级工业家张毓强和他的“新石头记”》秦朔 2019
- 《智能制造高技能人才培养规划丛书 ABB工业机器人虚拟仿真教程》(中国)工控帮教研组 2019
- 《AutoCAD机械设计实例精解 2019中文版》北京兆迪科技有限公司编著 2019