《数据挖掘导论》PDF下载

  • 购买积分:15 如何计算积分?
  • 作  者:(美)陈封能(Pang-NingTan),(美)迈克尔·斯坦巴赫(MichaelSteinbach),(美)阿努吉·卡帕坦(AnujKarpatne),(美)维平·库玛尔(VipinKumar)著;段磊,张天庆等译
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2019
  • ISBN:9787111631620
  • 页数:480 页
图书介绍:本书所涵盖的主题包括:数据预处理、预测建模、关联分析、聚类分析、异常检测和避免错误发现。通过介绍每个主题的基本概念和算法,为读者提供将数据挖掘应用于实际问题所需的必要背景以及使用方法。对于有志于从事这个领域研究的读者,本书也可作为一个起点。

第1章 绪论 1

1.1 什么是数据挖掘 2

1.2 数据挖掘要解决的问题 3

1.3 数据挖掘的起源 4

1.4 数据挖掘任务 5

1.5 本书组织结构 7

文献注释 8

参考文献 10

习题 12

第2章 数据 14

2.1 数据类型 15

2.1.1 属性与度量 16

2.1.2 数据集的类型 19

2.2 数据质量 24

2.2.1 测量和数据收集问题 24

2.2.2 关于应用的问题 27

2.3 数据预处理 28

2.3.1 聚集 28

2.3.2 抽样 30

2.3.3 维归约 31

2.3.4 特征子集选择 32

2.3.5 特征创建 34

2.3.6 离散化和二元化 35

2.3.7 变量变换 38

2.4 相似性和相异性的度量 40

2.4.1 基础 40

2.4.2 简单属性之间的相似度和相异度 41

2.4.3 数据对象之间的相异度 42

2.4.4 数据对象之间的相似度 44

2.4.5 邻近度度量的例子 44

2.4.6 互信息 50

2.4.7 核函数 51

2.4.8 Bregman散度 53

2.4.9 邻近度计算问题 54

2.4.10 选择正确的邻近度度量 56

文献注释 56

参考文献 58

习题 60

第3章 分类:基本概念和技术 65

3.1 基本概念 65

3.2 一般的分类框架 67

3.3 决策树分类器 69

3.3.1 构建决策树的基本算法 70

3.3.2 表示属性测试条件的方法 71

3.3.3 选择属性测试条件的方法 73

3.3.4 决策树归纳算法 79

3.3.5 示例:Web机器人检测 79

3.3.6 决策树分类器的特征 81

3.4 模型的过拟合 85

3.5 模型选择 90

3.5.1 验证集应用 90

3.5.2 模型复杂度合并 91

3.5.3 统计范围估计 93

3.5.4 决策树的模型选择 94

3.6 模型评估 95

3.6.1 保持方法 95

3.6.2 交叉验证 96

3.7 超参数的使用 97

3.7.1 超参数选择 98

3.7.2 嵌套交叉验证 98

3.8 模型选择和评估中的陷阱 99

3.8.1 训练集和测试集之间的重叠 99

3.8.2 使用验证错误率作为泛化错误率 100

3.9 模型比较 100

3.9.1 估计准确率的置信区间 100

3.9.2 比较两个模型的性能 101

文献注释 102

参考文献 105

习题 108

第4章 分类:其他技术 114

4.1 分类器的种类 114

4.2 基于规则的分类器 115

4.2.1 基于规则的分类器原理 116

4.2.2 规则集的属性 116

4.2.3 规则提取的直接方法 117

4.2.4 规则提取的间接方法 120

4.2.5 基于规则的分类器的特点 121

4.3 最近邻分类器 122

4.3.1 算法 123

4.3.2 最近邻分类器的特点 124

4.4 朴素贝叶斯分类器 124

4.4.1 概率论基础 125

4.4.2 朴素贝叶斯假设 127

4.5 贝叶斯网络 132

4.5.1 图表示 132

4.5.2 推理与学习 135

4.5.3 贝叶斯网络的特点 139

4.6 logistic回归 140

4.6.1 logistic回归用作广义线性模型 141

4.6.2 学习模型参数 141

4.6.3 logistic回归模型的特点 142

4.7 人工神经网络 143

4.7.1 感知机 144

4.7.2 多层神经网络 146

4.7.3 人工神经网络的特点 150

4.8 深度学习 151

4.8.1 使用协同损失函数 151

4.8.2 使用响应激活函数 153

4.8.3 正则化 154

4.8.4 模型参数的初始化 155

4.8.5 深度学习的特点 157

4.9 支持向量机 158

4.9.1 分离超平面的边缘 158

4.9.2 线性SVM 159

4.9.3 软边缘SVM 162

4.9.4 非线性SVM 165

4.9.5 SVM的特点 167

4.10 组合方法 168

4.10.1 组合方法的基本原理 168

4.10.2 构建组合分类器的方法 169

4.10.3 偏置-方差分解 170

4.10.4 装袋 171

4.10.5 提升 173

4.10.6 随机森林 176

4.10.7 组合方法的实验比较 177

4.11 类不平衡问题 178

4.11.1 类不平衡的分类器构建 179

4.11.2 带类不平衡的性能评估 180

4.11.3 寻找最优的评分阈值 183

4.11.4 综合评估性能 183

4.12 多类问题 188

文献注释 189

参考文献 193

习题 198

第5章 关联分析:基本概念和算法 205

5.1 预备知识 205

5.2 频繁项集的产生 207

5.2.1 先验原理 209

5.2.2 Apriori算法的频繁项集产生 210

5.2.3 候选项集的产生与剪枝 212

5.2.4 支持度计数 215

5.2.5 计算复杂度 217

5.3 规则的产生 219

5.3.1 基于置信度的剪枝 219

5.3.2 Apriori算法中规则的产生 219

5.3.3 示例:美国国会投票记录 221

5.4 频繁项集的紧凑表示 221

5.4.1 极大频繁项集 221

5.4.2 闭项集 223

5.5 其他产生频繁项集的方法 225

5.6 FP增长算法 228

5.6.1 FP树表示法 228

5.6.2 FP增长算法的频繁项集产生 229

5.7 关联模式的评估 231

5.7.1 兴趣度的客观度量 232

5.7.2 多个二元变量的度量 239

5.7.3 辛普森悖论 240

5.8 倾斜支持度分布的影响 241

文献注释 244

参考文献 248

习题 256

第6章 关联分析:高级概念 263

6.1 处理分类属性 263

6.2 处理连续属性 264

6.2.1 基于离散化的方法 265

6.2.2 基于统计学的方法 267

6.2.3 非离散化方法 268

6.3 处理概念分层 269

6.4 序列模式 270

6.4.1 预备知识 270

6.4.2 序列模式发现 272

6.4.3 时限约束 275

6.4.4 可选计数方案 278

6.5 子图模式 279

6.5.1 预备知识 280

6.5.2 频繁子图挖掘 281

6.5.3 候选生成 284

6.5.4 候选剪枝 287

6.5.5 支持度计数 287

6.6 非频繁模式 287

6.6.1 负模式 288

6.6.2 负相关模式 288

6.6.3 非频繁模式、负模式和负相关模式比较 289

6.6.4 挖掘有趣的非频繁模式的技术 290

6.6.5 基于挖掘负模式的技术 290

6.6.6 基于支持度期望的技术 292

文献注释 294

参考文献 295

习题 297

第7章 聚类分析:基本概念和算法 306

7.1 概述 307

7.1.1 什么是聚类分析 307

7.1.2 聚类的不同类型 308

7.1.3 簇的不同类型 309

7.2 K均值 310

7.2.1 K均值算法 311

7.2.2 K均值:附加的问题 316

7.2.3 二分K均值 317

7.2.4 K均值和不同的簇类型 318

7.2.5 优点与缺点 319

7.2.6 K均值作为优化问题 320

7.3 凝聚层次聚类 321

7.3.1 基本凝聚层次聚类算法 322

7.3.2 特殊技术 323

7.3.3 簇邻近度的Lance-Williams公式 326

7.3.4 层次聚类的主要问题 327

7.3.5 离群点 328

7.3.6 优点与缺点 328

7.4 DBSCAN 328

7.4.1 传统的密度:基于中心的方法 328

7.4.2 DBSCAN算法 329

7.4.3 优点与缺点 331

7.5 簇评估 331

7.5.1 概述 332

7.5.2 无监督簇评估:使用凝聚度和分离度 333

7.5.3 无监督簇评估:使用邻近度矩阵 336

7.5.4 层次聚类的无监督评估 339

7.5.5 确定正确的簇个数 339

7.5.6 聚类趋势 340

7.5.7 簇有效性的监督度量 341

7.5.8 评估簇有效性度量的显著性 344

7.5.9 簇有效性度量的选择 345

文献注释 345

参考文献 347

习题 349

第8章 聚类分析:其他问题与算法 356

8.1 数据、簇和聚类算法的特性 356

8.1.1 示例:比较K均值和DBSCAN 356

8.1.2 数据特性 357

8.1.3 簇特性 358

8.1.4 聚类算法的一般特性 359

8.2 基于原型的聚类 359

8.2.1 模糊聚类 360

8.2.2 使用混合模型的聚类 362

8.2.3 自组织映射 369

8.3 基于密度的聚类 372

8.3.1 基于网格的聚类 372

8.3.2 子空间聚类 374

8.3.3 DENCLUE:基于密度聚类的一种基于核的方案 377

8.4 基于图的聚类 378

8.4.1 稀疏化 379

8.4.2 最小生成树聚类 380

8.4.3 OPOSSUM:使用METIS的稀疏相似度最优划分 380

8.4.4 Chameleon:使用动态建模的层次聚类 381

8.4.5 谱聚类 384

8.4.6 共享最近邻相似度 388

8.4.7 Jarvis-Patrick聚类算法 390

8.4.8 SNN密度 391

8.4.9 基于SNN密度的聚类 392

8.5 可伸缩的聚类算法 393

8.5.1 可伸缩:一般问题和方法 393

8.5.2 BIRCH 394

8.5.3 CURE 395

8.6 使用哪种聚类算法 397

文献注释 399

参考文献 400

习题 403

第9章 异常检测 406

9.1 异常检测问题的特性 407

9.1.1 异常的定义 407

9.1.2 数据的性质 407

9.1.3 如何使用异常检测 408

9.2 异常检测方法的特性 408

9.3 统计方法 409

9.3.1 使用参数模型 410

9.3.2 使用非参数模型 412

9.3.3 对正常类和异常类建模 413

9.3.4 评估统计意义 414

9.3.5 优点与缺点 415

9.4 基于邻近度的方法 415

9.4.1 基于距离的异常分数 415

9.4.2 基于密度的异常分数 416

9.4.3 基于相对密度的异常分数 416

9.4.4 优点与缺点 417

9.5 基于聚类的方法 418

9.5.1 发现异常簇 418

9.5.2 发现异常实例 418

9.5.3 优点与缺点 420

9.6 基于重构的方法 420

9.7 单类分类 422

9.7.1 核函数的使用 422

9.7.2 原点技巧 423

9.7.3 优点与缺点 425

9.8 信息论方法 425

9.9 异常检测评估 426

文献注释 428

参考文献 429

习题 433

第10章 避免错误发现 436

10.1 预备知识:统计检验 436

10.1.1 显著性检验 436

10.1.2 假设检验 440

10.1.3 多重假设检验 443

10.1.4 统计检验中的陷阱 448

10.2 对零分布和替代分布建模 450

10.2.1 生成合成数据集 450

10.2.2 随机化类标 451

10.2.3 实例重采样 451

10.2.4 对检验统计量的分布建模 451

10.3 分类问题的统计检验 452

10.3.1 评估分类性能 452

10.3.2 以多重假设检验处理二分类问题 453

10.3.3 模型选择中的多重假设检验 453

10.4 关联分析的统计检验 454

10.4.1 使用统计模型 455

10.4.2 使用随机化方法 457

10.5 聚类分析的统计检验 458

10.5.1 为内部指标生成零分布 459

10.5.2 为外部指标生成零分布 459

10.5.3 富集 460

10.6 异常检测的统计检验 461

文献注释 462

参考文献 464

习题 466

索引 471