1.1 分析客户关系管理系统 1
第1章 数据挖掘的缘起和内容 1
1.1.1 交易处理系统的作用 2
1.1.2 数据仓库的作用 3
1.1.3 数据挖掘的作用 3
1.1.4 客户关系管理策略的作用 4
1.2 什么是数据挖掘 4
1.3 数据挖掘可以完成哪些工作 5
1.3.1 分类 5
1.3.2 估计 6
1.3.3 预测 6
1.3.5 聚类 7
1.3.6 建立简档 7
1.3.4 关联分组或关联规则 7
1.4 为什么现在研究 8
1.4.1 数据正在生成 8
1.4.2 数据正在形成数据仓库 8
1.4.3 计算能力足以承受 8
1.4.4 客户关系管理的兴趣增强 9
1.4.5 商业数据挖掘软件产品已经易于使用 9
1.5 目前如何使用数据挖掘 10
1.5.1 超级市场成为信息经纪人 10
1.5.2 基于推荐的商业 10
1.5.3 交叉销售 11
1.5.4 抓住好的客户 11
1.5.5 淘汰差的客户 11
1.5.6 变革一个行业 11
1.6 小结 12
1.5.7 其他 12
第2章 数据挖掘的良性循环 13
2.1 商业数据挖掘案例研究 14
2.1.1 识别商务挑战 14
2.1.2 应用数据挖掘 14
2.1.3 按照结果采取行动 15
2.1.4 测试效果 16
2.2 何谓良性循环 16
2.2.1 识别商业机会 17
2.2.2 挖掘数据 17
2.2.3 采取行动 19
2.2.4 测试结果 19
2.3 良性循环环境下的数据挖掘 20
2.4 移动通信公司建立恰当的联系 21
2.4.1 机会 22
2.4.2 如何应用数据挖掘 23
2.4.3 处理行动 24
2.4.4 完成循环 24
2.5 神经网络和决策树驱动SUV的销售 25
2.5.1 最初的挑战 25
2.5.2 如何应用数据挖掘 25
2.5.3 最终措施 26
2.5.4 完成循环 27
2.6 小结 27
第3章 数据挖掘方法论和最佳实践 29
3.1 为什么需要方法论 29
3.1.1 获取不真实的知识 29
3.1.2 获取真实但无用的知识 32
3.2 假设测试 33
3.3 模型、建立简档和预测 34
3.3.1 建立简档 36
3.3.2 预测 36
3.4 方法论 36
3.4.1 第一步:将商业问题转换为数据挖掘问题 37
3.4.2 第二步:选取合适数据 40
3.4.3 第三步:设法理解数据 43
3.4.4 第四步:创建模型集 45
3.4.5 第五步:修复数据问题 48
3.4.6 第六步:变换数据,获取信息 50
3.4.8 第八步:评估模型 52
3.4.7 第七步:建立模型 52
3.4.9 第九步:部署模型 57
3.4.10 第十步:评估结果 57
3.9.11 第十一步:重新开始 57
3.5 小结 58
第4章 数据挖掘在市场营销和客户关系管理中的应用 59
4.1 寻找潜在客户 59
4.1.1 识别好的潜在客户 59
4.1.2 选择沟通渠道 60
4.1.3 遴选适当的信息 60
4.2 为选择正确的广告场所进行数据挖掘 61
4.2.1 谁匹配简档 61
4.2.2 测量读者群组的匹配度 62
4.3 通过数据挖掘改进定向市场营销活动 64
4.3.2 优化固定预算的响应率 65
4.3.1 响应建模 65
4.3.3 优化营销活动收益 67
4.3.4 接触那些受相关信息影响最大的人们 71
4.3.5 差别响应分析 72
4.4 使用当前客户来了解潜在客户 73
4.4.1 在他们成为客户前就开始跟踪客户 73
4.4.2 从新客户那里收集信息 74
4.4.3 获取时间变量可预测未来结果 74
4.5 客户关系管理数据挖掘 74
4.5.1 按客户需求策划营销活动 75
4.5.2 划分客户群体 75
4.5.3 减少信用风险 77
4.5.4 决定客户价值 77
4.6.1 识别流失 78
4.5.5 交叉销售、提升销售和销售推荐 78
4.6 保持和流失 78
4.6.2 流失为什么重要 79
4.6.3 不同类型的流失 80
4.6.4 不同类型的流失模型 80
4.7 小结 81
第5章 统计学的魅力:数据挖掘常用的工具 83
5.1 Occam的剃刀 84
5.1.1 原假设 84
5.1.2 p值 85
5.2 观察数据 85
5.2.1 观察离散数值 85
5.2.2 观察连续变量 92
5.2.3 另一对统计概念 93
5.3.1 比例标准误差 94
5.3 测定响应 94
5.3.2 使用置信界限比较结果 95
5.3.3 使用比例差值比较结果 96
5.3.4 样本大小 97
5.3.5 置信区间的真正含义 97
5.3.6 实验的测试群组和对照群组大小 98
5.4 多重比较 99
5.4.1 多重比较下的置信层次 99
5.4.2 Bonferroni修正 100
5.5 卡方检验 100
5.5.1 期望值 100
5.5.2 卡方值 101
5.6 示例:区域和起点的卡方 103
5.5.3 卡方与比例差值的比较 103
5.7 数据挖掘和统计学异同 106
5.7.1 原始数据中没有测量误差 106
5.7.2 有大量的数据 106
5.7.3 时间从属性随处出现 107
5.7.4 试验是艰难的 107
5.7.5 数据审查和截取 107
5.8 小结 108
第6章 决策树 111
6.1 什么是决策树 111
6.1.1 分类 112
6.1.2 评分 112
6.1.3 估计 114
6.1.4 树以多种形态生长 114
6.2.1 发现拆分 115
6.2 决策树是如何长成的 115
6.2.2 生成完全树 118
6.2.3 度量决策树的有效性 118
6.3 选择最佳拆分的测试 119
6.3.1 纯度和发散性 119
6.3.2 基尼或总体发散性 120
6.3.3 熵归约或信息增益 121
6.3.4 信息增益比率 121
6.3.5 卡方检验 122
6.3.6 方差归约 124
6.3.7 F测试 124
6.4 修剪 124
6.4.1 CART修剪算法 125
6.4.2 C5修剪算法 128
6.4.3 基于稳定性的修剪 129
6.5 从树中提炼规则 130
6.6 考虑成本 131
6.7 决策树方法的进一步修正 132
6.7.1 每次使用多于一个字段 132
6.7.2 倾斜超平面 133
6.7.3 神经树 134
6.7.4 使用树分段回归 135
6.8 决策树的替代表示法 135
6.8.1 方格图 135
6.8.2 树年轮图 137
6.9 实际应用中的决策树 138
6.9.1 决策树作为数据探查工具 138
6.9.2 把决策树方法应用于顺序事件 139
6.9.3 模拟未来 140
6.10 小结 142
第7章 人工神经网络 143
7.1 历史回眸 143
7.2 房地产评估 144
7.3 用于定向数据挖掘的神经网络 148
7.4 神经网络是什么 149
7.4.1 神经网络的单元是什么 150
7.4.2 前馈神经网络 153
7.4.3 神经网络如何使用反向传播学习 154
7.4.4 前馈网络和反向传播网络的启发 156
7.5 选择训练集 157
7.5.1 覆盖所有特征值 157
7.5.2 特征数目 157
7.5.4 输出数目 158
7.5.3 训练集的大小 158
7.6 准备数据 159
7.6.1 具有连续数值的特征 159
7.6.2 具有有序、离散(整数)数值的特征 161
7.6.3 具有分类数值的特征 162
7.6.4 其他类型的特征 163
7.7 解释结果 163
7.8 时间序列神经网络 165
7.9 如何了解在神经网络内部正在运行的事情 167
7.10 自组织映像 168
7.10.1 什么是自组织映像 168
7.10.2 实例:发现簇 171
7.11 小结 172
8.1 基于存储的推理 175
第8章 最近邻方法:基于存储的推理和协同过滤 175
8.2 MBR面临的挑战 178
8.2.1 选择一组平衡的历史记录 179
8.2.2 表示训练数据 179
8.2.3 确定距离函数、组合函数和邻居的数目 180
8.3 案例研究:分类新闻报导 181
8.3.1 什么是代码 181
8.3.2 应用MBR 181
8.3.3 结果 183
8.4 测量距离 184
8.4.1 什么是距离函数 184
8.4.2 每次每个字段只建立一个距离函数 186
8.4.3 其他数据类型的距离函数 189
8.4.4 当距离度量已经存在时 189
8.5.1 基本的方法:民主 190
8.5 组合函数:向邻居求答案 190
8.5.2 加权投票 191
8.6 协同过滤:可以做出推荐的最近邻方法 192
8.6.1 建立简档 192
8.6.2 比较简档 193
8.6.3 做出预测 193
8.7 小结 194
第9章 购物篮分析和关联规则 195
9.1 定义购物篮分析 196
9.1.1 购物篮数据的三个层次 196
9.1.2 订单特征 197
9.1.3 项流行性 199
9.1.4 跟踪市场干预 199
9.1.5 按用途聚类产品 200
9.2 关联规则 201
9.2.1 可操作的规则 201
9.2.2 平凡的规则 201
9.2.3 费解的规则 202
9.3 一个关联规则有多好 203
9.4 建立关联规则 205
9.4.1 选择恰当的项集 206
9.4.2 从所有这些数据中生成规则 209
9.4.3 克服实际局限 211
9.4.4 大数据的问题 213
9.5 扩展思想 213
9.5.1 使用关联规则比较店铺 213
9.5.2 无关规则 214
9.6 使用关联规则的顺序分析 215
9.7 小结 215
第10章 链接分析 217
10.1 图论基础 217
10.1.1 哥尼斯堡七桥问题 219
10.1.2 旅行推销员问题 221
10.1.3 有向图 222
10.1.4 检测图中的环 223
10.2 链接分析的一个熟悉的应用 223
10.2.1 Kleinberg算法 224
10.2.2 细节:查找网络中心和权威 225
10.2.3 实践中的网络中心和权威 226
10.3.1 为什么发现传真机是有用的 227
10.3.2 用数据画图 227
10.3 案例研究:谁在家中使用传真机 227
10.3.3 方法 228
10.3.4 一些结果 229
10.4 案例研究:分段移动电话客户 232
10.4.1 数据 232
10.4.2 不使用图论的分析 232
10.4.3 两位客户的对比 232
10.4.4 链接分析的力量 234
10.5 小结 234
第11章 自动聚类探测 235
11.1 搜索单纯岛状片段 235
11.1.1 星光与星的亮度 236
11.1.2 适应多维情况 237
11.2.1 K平均算法的三个步骤 238
11.2 K平均聚类 238
11.2.2 K的意义 240
11.3 相似性和距离 241
11.3.1 相似性度量与变量类型 242
11.3.2 相似性的常规度量 242
11.4 聚类过程的数据准备 244
11.4.1 利用比例缩放使变量相对一致 245
11.4.2 使用权重编码外部信息 245
11.5 聚类探测的其他途径 246
11.5.1 高斯混合模型 246
11.5.2 凝聚聚类 247
11.5.3 分裂聚类 249
11.5.4 自组织映像 250
11.6 评价簇 250
11.7 案例研究:聚类城镇 251
11.6.1 在簇内部 251
11.6.2 在簇之外 251
11.7.1 创造城镇特征 252
11.7.2 创建簇 253
11.7.3 利用主题簇调整区域边界 256
11.8 小结 256
第12章 市场营销中的风险函数和生存分析 259
12.1 客户保持 260
12.1.1 计算保持 260
12.1.2 保持曲线揭示的内容 261
12.1.3 从保持曲线找出平均保有期 262
12.1.4 把客户保持看做衰变 263
12.2 风险 266
12.2.1 基本思想 266
12.2.2 风险函数示例 268
12.2.3 审查 270
12.2.4 其他类型的审查 271
12.3 从风险到生存 273
12.3.1 保持 273
12.3.2 生存 274
12.4 比例风险 275
12.4.1 比例风险实例 276
12.4.2 分层:测量生存的初始结果 276
12.4.3 Cox比例风险 277
12.4.4 比例风险的局限性 277
12.5 生存分析实践 278
12.5.1 处理不同的流失类型 278
12.5.2 客户何时会回来 279
12.5.3 预测 280
12.5.4 风险随时间变化 281
12.6 小结 282
第13章 遗传算法 283
13.1 遗传算法如何工作 284
13.1.1 计算机上的遗传学 284
13.1.2 表示数据 290
13.2 案例研究:使用遗传算法进行资源优化 290
13.3 模式:遗传算法为什么起作用 291
13.4 遗传算法的更多应用 294
13.4.1 在神经网络方面的应用 294
13.4.2 案例研究:为响应建模完善一个解决方案 295
13.5 超越简单算法 298
13.6 小结 299
14.1 客户关系层次 301
第14章 数据挖掘贯穿客户生存周期 301
14.1.1 深度亲密 302
14.1.2 大众亲密 303
14.1.3 中间关系 304
14.1.4 间接关系 304
14.2 客户生存周期 305
14.2.1 客户生存周期:生存阶段 306
14.2.2 客户生存周期 306
14.2.3 基于订阅关系和基于事件关系的比较 307
14.3 围绕客户生存周期组织商业过程 309
14.3.1 客户获取 310
14.3.2 客户激活 312
14.3.3 关系管理 313
14.3.4 保持 314
14.3.5 赢回 315
14.4 小结 315
第15章 数据仓库、OLAP和数据挖掘 317
15.1 数据结构 318
15.1.1 交易数据——基础层 318
15.1.2 操作汇总数据 319
15.1.3 决策支持汇总数据 319
15.1.4 数据库模式 320
15.1.5 元数据 323
15.1.6 商业规则 323
15.2 数据仓库的大致结构 324
15.2.1 源系统 325
15.2.2 提取、转化和加载 325
15.2.3 中央储存库 326
15.2.4 元数据储存库 328
15.2.5 数据集市 329
15.2.6 操作反馈 329
15.2.7 最终用户和桌面工具 329
15.3 OLAP适用于何处 331
15.3.1 立方体中的内容 332
15.3.2 星形模式 337
15.3.3 OLAP和数据挖掘 339
15.4 数据挖掘在哪里切入数据仓库 340
15.4.1 大量数据 340
15.4.2 一致的、清洁的数据 340
15.4.3 假设测试和测量 341
15.4.4 可升级硬件及RDBMS支持 341
15.5 小结 342
16.1 以客户为中心的组织 343
第16章 构造数据挖掘环境 343
16.2 理想的数据挖掘环境 344
16.2.1 确定什么数据可用的能力 344
16.2.2 将数据转化为可操作信息的技巧 345
16.2.3 所有必需的工具 345
16.3 返回现实世界 345
16.3.1 建立以客户为中心的组织 345
16.3.2 创建单个客户视图 346
16.3.3 定义以客户为中心的度量标准 346
16.3.4 收集正确的数据 347
16.3.6 挖掘客户数据 348
16.4 数据挖掘组 348
16.3.5 从客户交互到学习机会 348
16.4.1 外包数据挖掘 349
16.4.2 内部数据挖掘 350
16.4.3 数据挖掘组成员需要具备的条件 351
16.5 数据挖掘基础设施 351
16.5.1 挖掘平台 352
16.5.2 评分平台 352
16.5.3 一个产品数据挖掘结构实例 352
16.6 数据挖掘软件 355
16.6.1 所应用的技术范围 355
16.6.2 可扩展性 356
16.6.3 评分支持 357
16.6.4 用户界面的多种层次 357
16.6.8 对新手和高级用户的培训、咨询和支持 358
16.6.7 文档及简单使用 358
16.6.6 处理各种数据类型的能力 358
16.6.5 可理解的输出 358
16.6.9 卖方可信度 359
16.7 小结 359
第17章 为挖掘准备数据 361
17.1 数据应该像什么 361
17.1.1 客户特征标识 362
17.1.2 列 363
17.1.3 模型在建模中的角色 366
17.1.4 变量度量 368
17.1.5 用于数据挖掘的数据 373
17.2 构建客户特征标识 373
17.2.2 识别客户 374
17.2.1 编写数据目录 374
17.2.3 第一次尝试 376
17.2.4 取得进展 377
17.2.5 实际的问题 378
17.3 探查变量 378
17.3.1 直方图分布 378
17.3.2 随时间变化 378
17.3.3 交叉表 380
17.4 衍生变量 380
17.4.1 提取来自单个数值的特征 380
17.4.2 在记录内合并数值 381
17.4.3 查找辅助信息 381
17.4.4 转轴正则时间序列 383
17.4.5 汇总交易记录 384
17.5 基于行为变量的例子 385
17.4.6 汇总跨越模型集的字段 385
17.5.1 购买频率 386
17.5.2 衰减使用 387
17.5.3 旋转者、交易商和便利用户:定义客户行为 388
17.6 数据的黑暗面 393
17.6.1 缺失值 394
17.6.2 脏数据 395
17.6.3 不一致数值 396
17.7 计算问题 396
17.7.1 源系统 397
17.7.2 提取工具 397
17.7.3 专用代码 397
17.7.4 数据挖掘工具 397
17.8 小结 398
18.1 开始 399
第18章 应用数据挖掘 399
18.1.1 从概念验证方案中能期待什么 400
18.1.2 识别概念验证方案 400
18.1.3 实现概念验证方案 401
18.2 选择数据挖掘技术 404
18.2.1 将商务目标转换为数据挖掘任务 404
18.2.2 决定数据的相关特性 404
18.2.3 考虑混合方法 405
18.3 公司如何开展数据挖掘 406
18.3.1 保持的对照实验 406
18.3.2 数据 408
18.3.3 一些发现 409
18.3.4 实践出真知 409
18.4 小结 410