1.1 数据挖掘简介 1
目录出版者的话专家指导委员会名单译者序中文版序言前言第1章 绪论 1
1.2 数据集属性 3
1.3 结构类型:模型和模式 5
1.4 数据挖掘任务 7
1.5 数据挖掘算法的组件 10
1.5.1 评分函数 10
1.5.2 优化和搜索方法 10
1.5.3 数据管理策略 11
1.6 统计和数据挖掘的相互关系 11
1.7 数据挖掘:打捞、探查还是垂钓 13
1.8 本章归纳 14
1.9 补充读物 15
2.2 测量类型 17
第2章 测量和数据 17
2.1 简介 17
2.3 距离尺度 20
2.4 数据转化 25
2.5 数据形式 28
2.6 单个测量的数据质量 29
2.7 数据群体的数据质量 30
2.8 本章归纳 33
2.9 补充读物 33
第3章 可视化和探索数据 35
3.1 简介 35
3.2 总结数据:几个简单例子 36
3.3 显示单个变量的一些工具 37
3.4 显示两个变量间关系的工具 41
3.5 显示两个以上变量间关系的工具 46
3.6 主分量分析 48
3.7 多维缩放 54
3.8 补充读物 58
第4章 数据分析和不确定性 61
4.1 简介 61
4.2 处理不确定性 61
4.3 随机变量和它们的关系 63
4.4 样本和统计推理 66
4.5 估计 69
4.5.1 估计量的理想属性 69
4.5.2 最大似然估计 70
4.5.3 贝叶斯估计 76
4.6 假设检验 81
4.6.1 古典假设检验 82
4.6.2 数据挖掘中的假设检验 85
4.7 采样方法 87
4.8 本章归纳 90
4.9 补充读物 91
第5章 数据挖掘算法概览 93
5.1 简介 93
5.2 建立树分类器的CART算法 95
5.3 数据挖掘算法的化约主义观点 99
5.3.1 用于回归和分类的多层感知器 99
5.3.2 关联规则学习的APriori算法 102
5.3.3 检索文本的向量空间算法 104
5.4 讨论 105
5.5 补充读物 106
6.1 概述 107
第6章 模型和模式 107
6.2 建模基础 108
6.3 用于预测的模型结构 109
6.3.1 具有线性结构的回归模型 109
6.3.2 用于回归的局部分段模型结构 112
6.3.3 “基于记忆”的非参数局部模型 113
6.3.4 模型结构的随机部分 114
6.3.5 用于分类的预测模型 116
6.3.6 选择适当复杂度的模型 117
6.4 概率分布和密度函数模型 118
6.4.1 一般概念 119
6.4.2 混合模型 119
6.4.3 无序范畴型数据的联合分布 121
6.4.4 因式分解和高维空间中的独立性 121
6.5 维度效应 124
6.5.1 高维数据的变量选择 125
6.5.2 高维数据的变换 126
6.6 用于结构化数据的模型 127
6.7 模式结构 130
6.7.1 数据矩阵中的模式 130
6.7.2 字符串模式 132
6.8 参考读物 133
第7章 数据挖掘算法的评分函数 135
7.1 简介 135
7.2 对模式进行评价 136
7 3 预测性评分函数和描述性评分函数 137
7.3.1 评价预测模型的评分函数 137
7.3.2 评价描述模型的评分函数 139
7.4 评价不同复杂度的模型 140
7.4.1 模型比较的一般概念 141
7.4.2 再谈偏差-方差 142
7.4.3 惩罚复杂模型的评分函数 144
7.4.4 使用外部验证的评分函数 145
7.5 模型和模式的评价 146
7.6 鲁棒方法 148
7.7 补充读物 148
第8章 搜索和优化方法 151
8.1 简介 151
8.2 搜索模型或模式 152
8.2.1 搜索背景 152
8.2.2 数据挖掘中的状态空间搜索 154
8.2.3 简单贪婪搜索算法 155
8.2.4 系统搜索和搜索启示 156
8.2.5 分支定界法 157
8.3 参数优化方法 158
8.3.1 参数优化:背景 158
8.3.2 闭合形式解和线性代数方法 159
8.3.3 优化平滑函数的基于梯度方法 160
8.3.4 一元参数优化 160
8.3.5 多元参数优化 163
8.3.6 约束优化 165
8.4 存在残缺数据时的优化:EM算法 166
8.5 在线和单扫描算法 169
8.6 随机搜索和优化技术 170
8.7 补充读物 171
9.1 简介 173
第9章 描述建模 173
9.2 通过概率分布和密度描述数据 174
9.2.1 简介 174
9.2.2 用来估计概率分布和密度的评分函数 174
9.2.3 参数密度模型 175
9.2.4 混合分布和密度 178
9.2.5 混合模型的EM算法 179
9.2.6 非参数的密度估计 181
9.2.7 范畴型数据的联合分布 183
9.3 聚类分析背景 186
9.4 基于划分的聚类算法 188
9.4.1 基于划分聚类的评分函数 188
9.4.2 基于划分聚类的基本算法 191
9.5 层次聚类 196
9.5.1 凝聚方法 197
9.5.2 分裂方法 199
9.6 基于混合模型的概率聚类 200
9.7 补充读物 206
第10章 用于分类的预测建模 209
10.1 预测建模概览 209
10.2 分类建模简介 210
10.2.1 判别分类和决策边界 210
10.2.2 分类的概率模型 211
10.2.3 建立实际的分类器 213
10.3 感知器 216
10.4 线性判别式 217
10.5 树模型 219
10.6 最近邻方法 222
10.7 logistic判别式分析 224
10.8 朴素贝叶斯模型 224
10.9 其他方法 226
10.10 分类器的评估和比较 228
10.11 高维分类的特征选取 230
10.12 补充读物 231
第11章 用于回归的预测建模 233
11.1 简介 233
11.2 线性模型和最小二乘法拟合 233
11.2.1 拟合模型的计算问题 235
11.2.2 线性回归的概率解释 236
11.2.3 拟合后模型的解释 238
11.2.4 推理和泛化 239
11.2.5 模型搜索和建模 240
11.2.6 模型诊断和审查 241
11.3 推广的线性模型 243
11.4 人工神经网络 247
11.5 其他高度参数化的模型 249
11.5.1 推广的相加模型 249
11.5.2 投影追踪回归 250
11.6 补充读物 251
第12章 数据组织和数据库 253
12.1 简介 253
12.2 存储器层次 253
12.3 索引结构 254
12.3.1 B-树 254
12.3.2 哈希索引 255
12.5 关系数据库 256
12.4 多维索引 256
12.6 操纵表格 259
12.7 结构化查询语言 261
12.8 查询的执行和优化 263
12.9 数据仓库和在线分析处理 264
12.10 OLAP的数据结构 265
12.11 字符串数据库 266
12.12 海量数据集、数据管理和数据挖掘 266
12.12.1 把数据都放入主存储器 267
12.12.2 数据挖掘算法的可伸缩版本 267
12.12.3 考虑磁盘访问的有针对性算法 268
12.12.4 伪数据集和充分统计量 268
12.13 补充读物 269
13.1 简介 271
第13章 寻找模式和规则 271
13.2 规则表示 272
13.3 频繁项集和关联规则 272
13.3.1 简介 272
13.3.2 寻找频繁集和关联规则 274
13.4 推广 276
13.5 寻找序列中的片段 277
13.6 选择发现的模式和规则 278
13.6.1 简介 278
13.6.2 寻找模式的启发式搜索 278
13.6.3 有趣度标准 279
13.7 从局部模式到全局模型 280
13.8 预测规则归纳 281
13.9 补充读物 283
第14章 根据内容检索 285
14.1 简介 285
14.2 检索系统的评价 286
14.2.1 评价检索性能的困难之处 286
14.2.2 查准率对查全率 287
14.2.3 查准率和查全率的实践应用 288
14.3 文本检索 289
14.3.1 文本的表示 289
14.3.2 匹配查询和文档 292
14.3.3 隐含语义索引 294
14.3.4 文档和文本分类 297
14.4 对个人偏好建模 297
14.4.1 相关性反馈 297
14.4.2 自动推荐系统 298
14.5 图像检索 299
14.5.1 图像理解 299
14.5.2 图像表示 299
14.5.3 图像查询 300
14.5.4 图像恒定性 301
14.5.5 图像检索的推广 301
14.6 时间序列和序列检索 301
14.6.1 时间序列数据的全局模型 302
14.6.2 时间序列的结构和形状 303
14.7 本章归纳 304
14.8 补充读物 305
附录 随机变量 307
参考文献 311
索引 340