当前位置:首页 > 工业技术
数据挖掘  实用机器学习工具与技术  原书第4版
数据挖掘  实用机器学习工具与技术  原书第4版

数据挖掘 实用机器学习工具与技术 原书第4版PDF电子书下载

工业技术

  • 电子书积分:14 积分如何计算积分?
  • 作 者:(新西兰)伊恩H.威腾,埃贝·弗兰克,马克A.霍尔著
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2018
  • ISBN:9787111589167
  • 页数:418 页
图书介绍:本书是数据挖掘和机器学习领域的经典畅销教材,被国内外众多名校选用。第4版新增了关于深度学习和概率方法的重要章节,同时,备受欢迎的机器学习软件Weka也再度升级。书中全面覆盖了该领域的实用技术,致力于帮助读者理解不同技术的工作方式和应用方式,从而学会在工程实践和商业项目中解决真实问题。本书适合作为高等院校相关课程的教材,同时也适合业内技术人员阅读参考。
《数据挖掘 实用机器学习工具与技术 原书第4版》目录

第一部分 数据挖掘基础 2

第1章 绪论 2

1.1数据挖掘和机器学习 2

1.1.1描述结构模式 3

1.1.2机器学习 5

1.1.3数据挖掘 6

1.2简单的例子:天气问题和其他问题 6

1.2.1天气问题 6

1.2.2隐形眼镜:一个理想化的问题 8

1.2.3鸢尾花:一个经典的数值型数据集 9

1.2.4 CPU性能:引入数值预测 10

1.2.5劳资协商:一个更真实的例子 11

1.2.6大豆分类:一个经典的机器学习的成功例子 12

1.3应用领域 14

1.3.1 Web挖掘 14

1.3.2包含判断的决策 15

1.3.3图像筛选 15

1.3.4负载预测 16

1.3.5诊断 17

1.3.6市场和销售 17

1.3.7其他应用 18

1.4数据挖掘过程 19

1.5机器学习和统计学 20

1.6将泛化看作搜索 21

1.6.1枚举概念空间 22

1.6.2偏差 22

1.7数据挖掘和道德问题 24

1.7.1再识别 24

1.7.2使用个人信息 25

1.7.3其他问题 26

1.8拓展阅读及参考文献 26

第2章 输入:概念、实例和属性 29

2.1概念 29

2.2实例 31

2.2.1关系 31

2.2.2其他实例类型 34

2.3属性 35

2.4输入准备 36

2.4.1数据收集 37

2.4.2 ARFF格式 37

2.4.3稀疏数据 39

2.4.4属性类型 40

2.4.5缺失值 41

2.4.6不正确的值 42

2.4.7非均衡数据 42

2.4.8了解数据 43

2.5拓展阅读及参考文献 43

第3章 输出:知识表达 44

3.1表 44

3.2线性模型 44

3.3树 46

3.4规则 49

3.4.1分类规则 49

3.4.2关联规则 52

3.4.3包含例外的规则 53

3.4.4表达能力更强的规则 54

3.5基于实例的表达 56

3.6聚类 58

3.7拓展阅读及参考文献 59

第4章 算法:基本方法 60

4.1推断基本规则 60

4.2简单概率模型 63

4.2.1缺失值和数值属性 65

4.2.2用于文档分类的朴素贝叶斯 67

4.2.3讨论 68

4.3分治法:创建决策树 69

4.3.1计算信息量 71

4.3.2高度分支属性 73

4.4覆盖算法:建立规则 74

4.4.1规则与树 75

4.4.2一个简单的覆盖算法 76

4.4.3规则与决策列表 79

4.5关联规则挖掘 79

4.5.1项集 80

4.5.2关联规则 81

4.5.3高效地生成规则 84

4.6线性模型 86

4.6.1数值预测:线性回归 86

4.6.2线性分类:logistic回归 87

4.6.3使用感知机的线性分类 89

4.6.4使用Winnow的线性分类 90

4.7基于实例的学习 91

4.7.1 距离函数 92

4.7.2高效寻找最近邻 92

4.7.3讨论 96

4.8聚类 96

4.8.1基于距离的迭代聚类 97

4.8.2更快的距离计算 98

4.8.3选择簇的个数 99

4.8.4层次聚类 100

4.8.5层次聚类示例 101

4.8.6增量聚类 102

4.8.7分类效用 104

4.8.8讨论 106

4.9多实例学习 107

4.9.1聚集输入 107

4.9.2聚集输出 107

4.10拓展阅读及参考文献 108

4.11 Weka实现 109

第5章 可信度:评估学习结果 111

5.1训练和测试 111

5.2预测性能 113

5.3交叉验证 115

5.4其他评估方法 116

5.4.1留一交叉验证法 116

5.4.2自助法 116

5.5超参数选择 117

5.6数据挖掘方法比较 118

5.7预测概率 121

5.7.1二次损失函数 121

5.7.2信息损失函数 122

5.7.3讨论 123

5.8计算成本 123

5.8.1成本敏感分类 125

5.8.2成本敏感学习 126

5.8.3提升图 126

5.8.4 ROC曲线 129

5.8.5召回率-精确率曲线 130

5.8.6讨论 131

5.8.7成本曲线 132

5.9评估数值预测 134

5.10最小描述长度原理 136

5.11将MDL原理应用于聚类 138

5.12使用验证集进行模型选择 138

5.13拓展阅读及参考文献 139

第二部分 高级机器学习方案 144

第6章 树和规则 144

6.1决策树 144

6.1.1数值属性 144

6.1.2缺失值 145

6.1.3剪枝 146

6.1.4估计误差率 147

6.1.5决策树归纳法的复杂度 149

6.1.6从决策树到规则 150

6.1.7 C4.5:选择和选项 150

6.1.8成本-复杂度剪枝 151

6.1.9讨论 151

6.2分类规则 152

6.2.1选择测试的标准 152

6.2.2缺失值和数值属性 153

6.2.3生成好的规则 153

6.2.4使用全局优化 155

6.2.5从局部决策树中获得规则 157

6.2.6包含例外的规则 158

6.2.7讨论 160

6.3关联规则 161

6.3.1建立频繁模式树 161

6.3.2寻找大项集 163

6.3.3讨论 166

6.4 Weka实现 167

第7章 基于实例的学习和线性模型的扩展 168

7.1基于实例的学习 168

7.1.1减少样本集的数量 168

7.1.2对噪声样本集剪枝 169

7.1.3属性加权 170

7.1.4泛化样本集 170

7.1.5用于泛化样本集的距离函数 171

7.1.6泛化的距离函数 172

7.1.7讨论 172

7.2扩展线性模型 173

7.2.1最大间隔超平面 173

7.2.2非线性类边界 174

7.2.3支持向量回归 176

7.2.4核岭回归 177

7.2.5核感知机 178

7.2.6多层感知机 179

7.2.7径向基函数网络 184

7.2.8随机梯度下降 185

7.2.9讨论 186

7.3局部线性模型用于数值预测 187

7.3.1模型树 187

7.3.2构建树 188

7.3.3对树剪枝 188

7.3.4名目属性 189

7.3.5缺失值 189

7.3.6模型树归纳的伪代码 190

7.3.7从模型树到规则 192

7.3.8局部加权线性回归 192

7.3.9讨论 193

7.4 Weka实现 194

第8章 数据转换 195

8.1属性选择 196

8.1.1独立于方案的选择 197

8.1.2搜索属性空间 199

8.1.3具体方案相关的选择 200

8.2离散化数值属性 201

8.2.1无监督离散化 202

8.2.2基于熵的离散化 203

8.2.3其他离散化方法 205

8.2.4基于熵和基于误差的离散化 205

8.2.5将离散属性转换成数值属性 206

8.3投影 207

8.3.1主成分分析 207

8.3.2随机投影 209

8.3.3偏最小二乘回归 209

8.3.4独立成分分析 210

8.3.5线性判别分析 211

8.3.6二次判别分析 211

8.3.7 Fisher线性判别分析 211

8.3.8从文本到属性向量 212

8.3.9时间序列 213

8.4抽样 214

8.5数据清洗 215

8.5.1改进决策树 215

8.5.2稳健回归 215

8.5.3检测异常 216

8.5.4一分类学习 217

8.5.5离群点检测 217

8.5.6生成人工数据 218

8.6将多分类问题转换成二分类问题 219

8.6.1简单方法 219

8.6.2误差校正输出编码 220

8.6.3集成嵌套二分法 221

8.7校准类概率 223

8.8拓展阅读及参考文献 224

8.9 Weka实现 226

第9章 概率方法 228

9.1基础 228

9.1.1最大似然估计 229

9.1.2最大后验参数估计 230

9.2贝叶斯网络 230

9.2.1预测 231

9.2.2学习贝叶斯网络 233

9.2.3具体算法 235

9.2.4用于快速学习的数据结构 237

9.3聚类和概率密度估计 239

9.3.1用于高斯混合模型的期望最大化算法 239

9.3.2扩展混合模型 242

9.3.3使用先验分布聚类 243

9.3.4相关属性聚类 244

9.3.5核密度估计 245

9.3.6比较用于分类的参数、半参数和无参数的密度模型 245

9.4隐藏变量模型 246

9.4.1对数似然和梯度的期望 246

9.4.2期望最大化算法 247

9.4.3将期望最大化算法应用于贝叶斯网络 248

9.5贝叶斯估计与预测 249

9.6图模型和因子图 251

9.6.1图模型和盘子表示法 251

9.6.2概率主成分分析 252

9.6.3隐含语义分析 254

9.6.4使用主成分分析来降维 255

9.6.5概率LSA 256

9.6.6隐含狄利克雷分布 257

9.6.7因子图 258

9.6.8马尔可夫随机场 260

9.6.9使用sum-product算法和max-product算法进行计算 261

9.7条件概率模型 265

9.7.1概率模型的线性和多项式回归 265

9.7.2使用先验参数 266

9.7.3多分类logistic回归 268

9.7.4梯度下降和二阶方法 271

9.7.5广义线性模型 271

9.7.6有序类的预测 272

9.7.7使用核函数的条件概率模型 273

9.8时序模型 273

9.8.1马尔可夫模型和N元法 273

9.8.2隐马尔可夫模型 274

9.8.3条件随机场 275

9.9拓展阅读及参考文献 278

9.10 Weka实现 282

第10章 深度学习 283

10.1深度前馈网络 284

10.1.1 MNIST评估 284

10.1.2损失和正则化 285

10.1.3深层网络体系结构 286

10.1.4激活函数 287

10.1.5重新审视反向传播 288

10.1.6计算图以及复杂的网络结构 290

10.1.7验证反向传播算法的实现 291

10.2训练和评估深度网络 292

10.2.1早停 292

10.2.2验证、交叉验证以及超参数调整 292

10.2.3小批量随机梯度下降 293

10.2.4小批量随机梯度下降的伪代码 294

10.2.5学习率和计划 294

10.2.6先验参数的正则化 295

10.2.7丢弃法 295

10.2.8批规范化 295

10.2.9参数初始化 295

10.2.10无监督的预训练 296

10.2.11数据扩充和合成转换 296

10.3卷积神经网络 296

10.3.1 ImageNet评估和深度卷积神经网络 297

10.3.2从图像滤波到可学习的卷积层 297

10.3.3卷积层和梯度 300

10.3.4池化层二次抽样层以及梯度 300

10.3.5实现 301

10.4自编码器 301

10.4.1使用RBM预训练深度自编码器 302

10.4.2降噪自编码器和分层训练 304

10.4.3重构和判别式学习的结合 304

10.5随机深度网络 304

10.5.1玻尔兹曼机 304

10.5.2受限玻尔兹曼机 306

10.5.3对比分歧 306

10.5.4分类变量和连续变量 306

10.5.5深度玻尔兹曼机 307

10.5.6深度信念网络 308

10.6递归神经网络 309

10.6.1梯度爆炸与梯度消失 310

10.6.2其他递归网络结构 311

10.7拓展阅读及参考文献 312

10.8深度学习软件以及网络实现 315

10.8.1 Theano 315

10.8.2 Tensor Flow 315

10.8.3 Torch 315

10.8.4 CNTK 315

10.8.5 Caffe 315

10.8.6 DeepLearning4j 316

10.8.7其他包:Lasagne、Keras以及cuDNN 316

10.9 Weka实现 316

第11章 有监督和无监督学习 317

11.1半监督学习 317

11.1.1用以分类的聚类 317

11.1.2协同训练 318

11.1.3 EM和协同训练 319

11.1.4神经网络方法 319

11.2多实例学习 320

11.2.1转换为单实例学习 320

11.2.2升级学习算法 321

11.2.3专用多实例方法 322

11.3拓展阅读及参考文献 323

11.4 Weka实现 323

第12章 集成学习 325

12.1组合多种模型 325

12.2装袋 326

12.2.1偏差-方差分解 326

12.2.2考虑成本的装袋 327

12.3随机化 328

12.3.1随机化与装袋 328

12.3.2旋转森林 329

12.4提升 329

12.4.1 AdaBoost算法 330

12.4.2提升算法的威力 331

12.5累加回归 332

12.5.1数值预测 332

12.5.2累加logistic回归 333

12.6可解释的集成器 334

12.6.1选择树 334

12.6.2 logistic模型树 336

12.7堆栈 336

12.8拓展阅读及参考文献 338

12.9 Weka实现 339

第13章 扩展和应用 340

13.1应用机器学习 340

13.2从大型的数据集学习 342

13.3数据流学习 344

13.4融合领域知识 346

13.5文本挖掘 347

13.5.1文档分类与聚类 348

13.5.2信息提取 349

13.5.3自然语言处理 350

13.6 Web挖掘 350

13.6.1包装器归纳 351

13.6.2网页分级 351

13.7图像和语音 353

13.7.1图像 353

13.7.2语音 354

13.8对抗情形 354

13.9无处不在的数据挖掘 355

13.10拓展阅读及参考文献 357

13.11 Weka实现 359

附录A 理论基础 360

附录B Weka工作平台 375

索引 388

相关图书
作者其它书籍
返回顶部