《数据挖掘基础与应用实例》PDF下载

  • 购买积分:12 如何计算积分?
  • 作  者:蒋盛益,张钰莎,王连喜编著
  • 出 版 社:北京:经济科学出版社
  • 出版年份:2015
  • ISBN:9787514152401
  • 页数:342 页
图书介绍:本教材是广东外语外贸大学广东服务外包人才培训基地《服务外包系列教材》之一,本教材可作为全国各类服务外包培训机构和组织的专业培训教材,亦可作为希望对服务外包行业了解更多或希望从事服务外包工作的各大专院校学生和有关政府部门、企业管理人员及技术人员的培训教材和参考书。本书在介绍了数据挖掘的基本原理和方法之后,讲述了多个应用领域案例,旨在使读者了解和掌握数据挖掘技术的理念和算法,熟悉数据挖掘技术应用的流程和分析方法,引导读者理解和利用数据挖掘技术解决实际领域中的现实问题,从而为今后的数据分析工作夯实基础。全书分为三大部分,包括上篇——入门篇、中篇——基础篇和下篇——提高篇,共10章。入门篇从全局视角对数据挖掘的基本概念、任务、建模过程、应用前景以及数据挖掘工具Clementine软件进行介绍。基础篇对数据挖掘的主流分析技术进行介绍,并对一些经典算法进行了详细的描述和示例讲解,同时对部分算法进行了对比提高篇是入门篇与基础篇内容的延伸与拓展,是数据挖掘技术在不同行业领域的具体应用。本书除了介绍数据挖掘的经典方法之外,也参考了很多国内外的研究成果,同时也融入了作者们的部分研究成果。

上篇 数据挖掘入门篇 3

第1章 数据挖掘概述 3

1.1 数据挖掘引例 3

1.1.1 Target和怀孕预测指数 3

1.1.2 Amazon和个性化推荐 3

1.1.3 Google用搜索关键词监测流感 4

1.1.4 智能搜索 4

1.2 数据挖掘简介 4

1.2.1 数据挖掘产生的背景 4

1.2.2 数据挖掘的定义 5

1.2.3 数据挖掘任务 6

1.2.4 数据挖掘过程 8

1.2.5 数据挖掘十大经典算法 8

1.3 数据挖掘应用 10

1.3.1 商业领域的应用 10

1.3.2 互联网技术领域的应用 12

1.3.3 其他应用领域 14

1.4 数据挖掘工具及软件 16

1.4.1 数据挖掘工具分类 16

1.4.2 数据挖掘工具选择需要考虑的问题 16

1.4.3 数据挖掘工具介绍 17

1.5 数据挖掘技术的前景 19

1.6 数据挖掘与隐私保护 20

1.7 本章小结 21

习题1 21

第2章 Clementine概述 22

2.1 Clementine简介 22

2.2 Clementine数据流操作 23

2.2.1 生成数据流的基本过程 23

2.2.2 节点操作 24

2.2.3 超节点 26

2.3 输入、输出节点介绍 27

2.3.1 数据源节点 27

2.3.2 类型节点 32

2.3.3 表节点 33

2.3.4 数据导出节点 34

2.4 数据可视化节点介绍 35

2.4.1 数据审核节点 35

2.4.2 网络节点 37

2.5 数据挖掘建模过程 39

2.5.1 业务理解 40

2.5.2 数据理解 41

2.5.3 数据准备 41

2.5.4 建模 42

2.5.5 评估 43

2.5.6 部署 43

2.6 辛普森悖论 44

2.7 本章小结 45

习题2 45

中篇 数据挖掘基础篇 49

第3章 数据预处理 49

3.1 数据预处理概述 49

3.2 数据清理 50

3.2.1 缺失值的处理 50

3.2.2 噪声数据的处理 51

3.2.3 不一致数据的处理 52

3.3 数据集成 52

3.4 数据变换 53

3.4.1 数据泛化 53

3.4.2 规范化 54

3.4.3 特征构造 55

3.4.4 数值属性离散化 56

3.5 数据归约 58

3.5.1 数据立方体聚集 58

3.5.2 特征选择 60

3.5.3 抽样 60

3.6 Clementine中相关节点介绍 61

3.6.1 导出节点 61

3.6.2 特征选择节点 65

3.6.3 抽样节点 66

3.6.4 选择节点 66

3.6.5 分区节点 66

3.6.6 分箱节点 68

3.6.7 平衡节点 70

3.6.8 排序节点 71

3.7 本章小结 71

习题3 72

第4章 分类与回归 73

4.1 分类与回归技术概述 73

4.2 决策树分类方法 74

4.2.1 决策树的基本概念 74

4.2.2 构建决策树的要素 75

4.2.3 Hunt算法 80

4.2.4 C4.5 算法 81

4.2.5 CART算法 88

4.2.6 C4.5 与CART算法对比 92

4.3 贝叶斯分类方法 93

4.3.1 贝叶斯定理 94

4.3.2 朴素贝叶斯分类算法 95

4.3.3 贝叶斯信念网络 98

4.4 K-最近邻分类方法 100

4.4.1 最近邻分类的基本概念 101

4.4.2 KNN算法优缺点 102

4.5 Logistic回归 102

4.5.1 二元Logistic回归模型 102

4.5.2 Logistic回归模型的系数估计 103

4.5.3 显著性检验 104

4.5.4 回归方程的拟合优度检验 105

4.6 分类模型的评价 108

4.7 回归分析 110

4.7.1 线性回归模型的表示 110

4.7.2 线性回归模型的检验 111

4.7.3 非线性回归 113

4.8 集成分类 115

4.8.1 集成学习的过程描述 115

4.8.2 构建集成分类器的方法 116

4.8.3 集成分类方法的优缺点 116

4.9 Clementine中相关节点介绍 116

4.9.1 C5.0节 点 116

4.9.2 C&RTree节点 119

4.9.3 BayesNet节点 120

4.9.4 线性回归节点 122

4.9.5 逻辑回归节点 124

4.9.6 Ensemble节点 126

4.9.7 分析节点 127

4.9.8 评估节点 128

4.10 案例4-1:分类技术在信用风险贷款分析中的应用 133

4.10.1 商业理解 133

4.10.2 数据理解 133

4.10.3 数据准备 135

4.10.4 数据建模 138

4.10.5 模型评估 142

4.10.6 模型部署 144

4.11 案例4-2:Logistic回归在旅游公司目录销售中的应用 144

4.11.1 商业理解 144

4.11.2 数据理解与数据准备 145

4.11.3 数据建模 146

4.11.4 部署 148

4.12 本章小结 149

习题4 149

第5章 聚类分析 153

5.1 聚类分析概述 153

5.2 相似性度量 154

5.2.1 数据及数据类型 154

5.2.2 属性之间的相似性度量 155

5.2.3 对象之间的相似性度量 157

5.3 K-means算法及其改进 161

5.3.1 基本K-means算法 161

5.3.2 二分K-means算法 163

5.3.3 K-means算法的拓展 163

5.4 一趟聚类算法 166

5.4.1 算法描述 166

5.4.2 一趟聚类阈值的选择策略 166

5.5 两步聚类算法 168

5.5.1 构建CF树 168

5.5.2 两步聚类的“亲疏程度”度量 170

5.5.3 簇数目的确定 170

5.6 聚类算法评价 171

5.6.1 确定簇数 171

5.6.2 测定聚类质量 172

5.7 Clementine中相关节点介绍 173

5.7.1 K-means聚类节点 174

5.7.2 Two-step聚类节点 176

5.7.3 Khonen聚类节点 176

5.8 案例5-1:电信客户细分与流失分析 179

5.8.1 商业理解 179

5.8.2 数据理解 179

5.8.3 数据准备 180

5.8.4 数据建模 181

5.8.5 结果评估 185

5.9 案例5-2:聚类城镇及在市场营销中的应用 186

5.9.1 创造城镇特征 186

5.9.2 创建簇 187

5.9.3 利用主题簇调整区域边界 189

5.10 本章小结 190

习题5 190

第6章 关联规则 192

6.1 关联规则挖掘概述 192

6.2 关联规则挖掘的基本概念 193

6.3 Apriori算法 194

6.3.1 Apriori性质 195

6.3.2 频繁项集的产生 195

6.3.3 规则的产生 199

6.3.4 关联规则的评价 201

6.4 关联规则扩展 204

6.4.1 关联规则分类 204

6.4.2 多层次关联规则 204

6.4.3 多维度关联规则 205

6.4.4 定量关联规则 205

6.4.5 基于约束的关联规则 206

6.4.6 序列模式挖掘 206

6.5 Clementine中Apriori节点介绍 207

6.6 案例6-1:移动业务关联分析 209

6.6.1 商业理解 209

6.6.2 数据理解阶段 209

6.6.3 数据准备阶段 211

6.6.4 建模阶段 213

6.6.5 模型评估 216

6.6.6 部署阶段 218

6.7 案例6-2:超市购物篮分析 219

6.7.1 商业理解 219

6.7.2 数据理解 219

6.7.3 数据准备 220

6.7.4 建立模型 221

6.7.5 模型评估和应用 224

6.8 本章小结 225

习题6 225

第7章 离群点检测 228

7.1 离群点检测概念 228

7.2 基于统计的方法 229

7.3 基于相对密度的离群点检测方法 230

7.4 基于聚类的离群点检测方法 236

7.4.1 基于对象的离群因子检测方法 237

7.4.2 基于簇的离群因子检测方法 239

7.4.3 基于聚类的动态数据离群点检测方法 241

7.5 离群点检测方法的评估 242

7.6 Clementine中的Anomaly节点介绍 242

7.7 案例7-1:离群点检测在癌症诊断中的应用 244

7.7.1 商业理解 244

7.7.2 数据理解 244

7.7.3 数据准备 245

7.7.4 数据建模与评估 245

7.8 案例7-2:离群点检测在网络入侵检测中的应用 246

7.8.1 商业理解 246

7.8.2 数据理解 247

7.8.3 数据准备 248

7.8.4 数据建模与评估 249

7.9 本章小结 251

习题7 251

下篇 数据挖掘提高篇 255

第8章 RFM分析 255

8.1 RFM分析的基本原理 255

8.2 RFM模型的应用场景 256

8.3 Clementine中相关节点介绍 257

8.3.1 RFM汇总节点 258

8.3.2 RFM分析节点 259

8.4 案例8-1:识别促销的目标客户 261

8.4.1 数据理解 261

8.4.2 识别消费额度高的客户 262

8.4.3 预测促销目标客户的响应 264

8.5 案例8-2:RFM模型在销售数据分析中的应用 267

8.5.1 数据理解 267

8.5.2 数据准备 268

8.5.3 数据建模 269

8.5.4 结果评估 271

8.6 本章小结 272

第9章 文本挖掘 273

9.1 分词技术 273

9.1.1 分词挑战 273

9.1.2 分词方法 274

9.1.3 常见分词工具 276

9.2 文本向量化 277

9.2.1 向量空间模型 277

9.2.2 文本特征选择 278

9.3 文本聚类 279

9.3.1 文本相似度计算 279

9.3.2 文本聚类过程 280

9.4 文本分类 281

9.4.1 文本分类的概念 281

9.4.2 常用文本分类算法 281

9.4.3 常用基准语料与模型评估 285

9.5 文档自动摘要 286

9.5.1 文档自动摘要的类型 287

9.5.2 相关技术 287

9.5.3 自动文摘的关键问题 289

9.5.4 性能评估 290

9.6 文本情感分析 291

9.6.1 文本情感分析概念 291

9.6.2 文本情感分析技术 292

9.6.3 文本情感分析的应用 293

9.7 案例9-1:跨语言智能学术搜索系统 294

9.7.1 混合语种文本分词 295

9.7.2 基于机器翻译的跨语言信息检索 295

9.7.3 不同语种文本的搜索结果聚类 296

9.7.4 基于聚类的个性化信息检索 296

9.7.5 基于聚类的查询扩展 297

9.7.6 其他检索便利工具 298

9.7.7 系统性能评估 298

9.8 案例9-2:基于文本分类的微博平台潜在客户识别 304

9.8.1 商业理解 304

9.8.2 数据理解 305

9.8.3 数据准备 305

9.8.4 数据建模 306

9.8.5 模型评估及应用 307

9.9 本章小结 312

第10章 社会网络分析 314

10.1 社会网络分析概述 314

10.1.1 社会网络分析相关概念 314

10.1.2 中心性 315

10.1.3 权威性 316

10.2 社区检测 316

10.2.1 基于分割的GN算法 317

10.2.2 基于模块度优化的CNM算法 319

10.2.3 面向加权网络的随机漫步模型算法 320

10.2.4 BGLL算法与层次性 321

10.2.5 CPM算法与重叠性 322

10.2.6 动态网络的社区检测算法 323

10.2.7 社区检测质量评价方法 326

10.2.8 社会网络分析软件 327

10.3 案例10-1:基于社区检测的通信业客户细分 328

10.3.1 数据理解 328

10.3.2 数据预处理 328

10.3.3 社团检测 329

10.3.4 社团的通话特征分析 330

10.3.5 社团的客户属性分析 330

10.3.6 社团的中心客户发现 331

10.3.7 基于社团检测的电信客户细分的应用 333

10.4 案例10-2:微博用户圈识别 333

10.4.1 数据理解 333

10.4.2 数据预处理 333

10.4.3 社团检测 335

10.4.4 结果分析 335

10.5 本章小结 337

附录 数据挖掘常用资源列表 338

参考文献 340