《数据挖掘原理》PDF下载

购买积分：13 如何计算积分？
作　　者：David Hand，Heikki Mannila，Padhraic Smyth著；张银奎等译
出版社：机械工业出版社；中信出版社
出版年份：2003
ISBN：7111115775
页数：361 页

图书介绍：本书介绍了数据挖掘的基本原理。

点击购买此书全本PDF电子书

1.1 数据挖掘简介 1

目录出版者的话专家指导委员会名单译者序中文版序言前言第1章绪论 1

1.2 数据集属性 3

1.3 结构类型：模型和模式 5

1.4 数据挖掘任务 7

1.5 数据挖掘算法的组件 10

1.5.1 评分函数 10

1.5.2 优化和搜索方法 10

1.5.3 数据管理策略 11

1.6 统计和数据挖掘的相互关系 11

1.7 数据挖掘：打捞、探查还是垂钓 13

1.8 本章归纳 14

1.9 补充读物 15

2.2 测量类型 17

第2章测量和数据 17

2.1 简介 17

2.3 距离尺度 20

2.4 数据转化 25

2.5 数据形式 28

2.6 单个测量的数据质量 29

2.7 数据群体的数据质量 30

2.8 本章归纳 33

2.9 补充读物 33

第3章可视化和探索数据 35

3.1 简介 35

3.2 总结数据：几个简单例子 36

3.3 显示单个变量的一些工具 37

3.4 显示两个变量间关系的工具 41

3.5 显示两个以上变量间关系的工具 46

3.6 主分量分析 48

3.7 多维缩放 54

3.8 补充读物 58

第4章数据分析和不确定性 61

4.1 简介 61

4.2 处理不确定性 61

4.3 随机变量和它们的关系 63

4.4 样本和统计推理 66

4.5 估计 69

4.5.1 估计量的理想属性 69

4.5.2 最大似然估计 70

4.5.3 贝叶斯估计 76

4.6 假设检验 81

4.6.1 古典假设检验 82

4.6.2 数据挖掘中的假设检验 85

4.7 采样方法 87

4.8 本章归纳 90

4.9 补充读物 91

第5章数据挖掘算法概览 93

5.1 简介 93

5.2 建立树分类器的CART算法 95

5.3 数据挖掘算法的化约主义观点 99

5.3.1 用于回归和分类的多层感知器 99

5.3.2 关联规则学习的APriori算法 102

5.3.3 检索文本的向量空间算法 104

5.4 讨论 105

5.5 补充读物 106

6.1 概述 107

第6章模型和模式 107

6.2 建模基础 108

6.3 用于预测的模型结构 109

6.3.1 具有线性结构的回归模型 109

6.3.2 用于回归的局部分段模型结构 112

6.3.3 “基于记忆”的非参数局部模型 113

6.3.4 模型结构的随机部分 114

6.3.5 用于分类的预测模型 116

6.3.6 选择适当复杂度的模型 117

6.4 概率分布和密度函数模型 118

6.4.1 一般概念 119

6.4.2 混合模型 119

6.4.3 无序范畴型数据的联合分布 121

6.4.4 因式分解和高维空间中的独立性 121

6.5 维度效应 124

6.5.1 高维数据的变量选择 125

6.5.2 高维数据的变换 126

6.6 用于结构化数据的模型 127

6.7 模式结构 130

6.7.1 数据矩阵中的模式 130

6.7.2 字符串模式 132

6.8 参考读物 133

第7章数据挖掘算法的评分函数 135

7.1 简介 135

7.2 对模式进行评价 136

7 3 预测性评分函数和描述性评分函数 137

7.3.1 评价预测模型的评分函数 137

7.3.2 评价描述模型的评分函数 139

7.4 评价不同复杂度的模型 140

7.4.1 模型比较的一般概念 141

7.4.2 再谈偏差-方差 142

7.4.3 惩罚复杂模型的评分函数 144

7.4.4 使用外部验证的评分函数 145

7.5 模型和模式的评价 146

7.6 鲁棒方法 148

7.7 补充读物 148

第8章搜索和优化方法 151

8.1 简介 151

8.2 搜索模型或模式 152

8.2.1 搜索背景 152

8.2.2 数据挖掘中的状态空间搜索 154

8.2.3 简单贪婪搜索算法 155

8.2.4 系统搜索和搜索启示 156

8.2.5 分支定界法 157

8.3 参数优化方法 158

8.3.1 参数优化：背景 158

8.3.2 闭合形式解和线性代数方法 159

8.3.3 优化平滑函数的基于梯度方法 160

8.3.4 一元参数优化 160

8.3.5 多元参数优化 163

8.3.6 约束优化 165

8.4 存在残缺数据时的优化：EM算法 166

8.5 在线和单扫描算法 169

8.6 随机搜索和优化技术 170

8.7 补充读物 171

9.1 简介 173

第9章描述建模 173

9.2 通过概率分布和密度描述数据 174

9.2.1 简介 174

9.2.2 用来估计概率分布和密度的评分函数 174

9.2.3 参数密度模型 175

9.2.4 混合分布和密度 178

9.2.5 混合模型的EM算法 179

9.2.6 非参数的密度估计 181

9.2.7 范畴型数据的联合分布 183

9.3 聚类分析背景 186

9.4 基于划分的聚类算法 188

9.4.1 基于划分聚类的评分函数 188

9.4.2 基于划分聚类的基本算法 191

9.5 层次聚类 196

9.5.1 凝聚方法 197

9.5.2 分裂方法 199

9.6 基于混合模型的概率聚类 200

9.7 补充读物 206

第10章用于分类的预测建模 209

10.1 预测建模概览 209

10.2 分类建模简介 210

10.2.1 判别分类和决策边界 210

10.2.2 分类的概率模型 211

10.2.3 建立实际的分类器 213

10.3 感知器 216

10.4 线性判别式 217

10.5 树模型 219

10.6 最近邻方法 222

10.7 logistic判别式分析 224

10.8 朴素贝叶斯模型 224

10.9 其他方法 226

10.10 分类器的评估和比较 228

10.11 高维分类的特征选取 230

10.12 补充读物 231

第11章用于回归的预测建模 233

11.1 简介 233

11.2 线性模型和最小二乘法拟合 233

11.2.1 拟合模型的计算问题 235

11.2.2 线性回归的概率解释 236

11.2.3 拟合后模型的解释 238

11.2.4 推理和泛化 239

11.2.5 模型搜索和建模 240

11.2.6 模型诊断和审查 241

11.3 推广的线性模型 243

11.4 人工神经网络 247

11.5 其他高度参数化的模型 249

11.5.1 推广的相加模型 249

11.5.2 投影追踪回归 250

11.6 补充读物 251

第12章数据组织和数据库 253

12.1 简介 253

12.2 存储器层次 253

12.3 索引结构 254

12.3.1 B-树 254

12.3.2 哈希索引 255

12.5 关系数据库 256

12.4 多维索引 256

12.6 操纵表格 259

12.7 结构化查询语言 261

12.8 查询的执行和优化 263

12.9 数据仓库和在线分析处理 264

12.10 OLAP的数据结构 265

12.11 字符串数据库 266

12.12 海量数据集、数据管理和数据挖掘 266

12.12.1 把数据都放入主存储器 267

12.12.2 数据挖掘算法的可伸缩版本 267

12.12.3 考虑磁盘访问的有针对性算法 268

12.12.4 伪数据集和充分统计量 268

12.13 补充读物 269

13.1 简介 271

第13章寻找模式和规则 271

13.2 规则表示 272

13.3 频繁项集和关联规则 272

13.3.1 简介 272

13.3.2 寻找频繁集和关联规则 274

13.4 推广 276

13.5 寻找序列中的片段 277

13.6 选择发现的模式和规则 278

13.6.1 简介 278

13.6.2 寻找模式的启发式搜索 278

13.6.3 有趣度标准 279

13.7 从局部模式到全局模型 280

13.8 预测规则归纳 281

13.9 补充读物 283

第14章根据内容检索 285

14.1 简介 285

14.2 检索系统的评价 286

14.2.1 评价检索性能的困难之处 286

14.2.2 查准率对查全率 287

14.2.3 查准率和查全率的实践应用 288

14.3 文本检索 289

14.3.1 文本的表示 289

14.3.2 匹配查询和文档 292

14.3.3 隐含语义索引 294

14.3.4 文档和文本分类 297

14.4 对个人偏好建模 297

14.4.1 相关性反馈 297

14.4.2 自动推荐系统 298

14.5 图像检索 299

14.5.1 图像理解 299

14.5.2 图像表示 299

14.5.3 图像查询 300

14.5.4 图像恒定性 301

14.5.5 图像检索的推广 301

14.6 时间序列和序列检索 301

14.6.1 时间序列数据的全局模型 302

14.6.2 时间序列的结构和形状 303

14.7 本章归纳 304

14.8 补充读物 305

附录随机变量 307

参考文献 311

索引 340