第1章 什么是数据挖掘以及为什么要进行数据挖掘 1
1.1 什么是数据挖掘 2
1.1.1 数据挖掘是一项业务流程 2
1.1.2 大量的数据 2
1.1.3 有意义的模式和规则 3
1.1.4 数据挖掘和客户关系管理 3
1.2 为什么是现在 4
1.2.1 数据正在产生 5
1.2.2 数据正存在于数据仓库中 5
1.2.3 计算能力能够承受 5
1.2.4 对客户关系管理的兴趣非常强烈 5
1.2.5 商业的数据挖掘软件产品变得可用 6
1.3 数据挖掘人员的技能 7
1.4 数据挖掘的良性循环 7
1.5 业务数据挖掘的案例研究 8
1.5.1 识别美国银行的业务挑战 9
1.5.2 应用数据挖掘 9
1.5.3 对结果采取行动 10
1.5.4 度量数据挖掘的影响 11
1.6 良性循环的步骤 11
1.6.1 识别业务机会 12
1.6.2 将数据转换为信息 13
1.6.3 根据信息采取行动 14
1.6.4 度量结果 15
1.7 良性循环上下文中的数据挖掘 17
1.8 经验教训 19
第2章 数据挖掘在营销和客户关系管理中的应用 21
2.1 两个客户生存周期 21
2.1.1 客户个人生存周期 21
2.1.2 客户关系生存周期 22
2.1.3 基于订阅的关系和基于事件的关系 23
2.2 围绕客户生存周期组织业务流程 25
2.2.1 客户获取 25
2.2.2 客户激活 27
2.2.3 客户关系管理 29
2.2.4 赢回 29
2.3 数据挖掘应用于客户获取 30
2.3.1 识别好的潜在客户 30
2.3.2 选择通信渠道 30
2.3.3 挑选适当的信息 31
2.4 数据挖掘示例:选择合适的地方做广告 31
2.4.1 谁符合剖析 31
2.4.2 度量读者群的适应度 33
2.5 数据挖掘改进直接营销活动 34
2.5.1 响应建模 35
2.5.2 优化固定预算的响应 35
2.5.3 优化活动收益率 37
2.5.4 抵达最受信息影响的人 40
2.6 通过当前客户了解潜在客户 41
2.6.1 在客户成为“客户”以前开始跟踪他们 41
2.6.2 收集新的客户信息 41
2.6.3 获取时间变量可以预测将来的结果 42
2.7 数据挖掘应用于客户关系管理 42
2.7.1 匹配客户的活动 42
2.7.2 减少信用风险 43
2.7.3 确定客户价值 44
2.7.4 交叉销售、追加销售和推荐 44
2.8 保留 45
2.8.1 识别流失 45
2.8.2 为什么流失是问题 46
2.8.3 不同类型的流失 46
2.8.4 不同种类的流失模型 47
2.9 超越客户生存周期 48
2.1 0经验教训 48
第3章 数据挖掘过程 51
3.1 会出什么问题 51
3.1.1 学习的东西不真实 52
3.1.2 学习的东西真实但是无用 55
3.2 数据挖掘类型 56
3.2.1 假设检验 56
3.2.2 有指导数据挖掘 60
3.2.3 无指导数据挖掘 61
3.3 目标、任务和技术 61
3.3.1 数据挖掘业务目标 62
3.3.2 数据挖掘任务 62
3.3.3 数据挖掘技术 66
3.4 制定数据挖掘问题:从目标到任务再到技术 66
3.4.1 选择广告的最佳位置 66
3.4.2 确定向客户提供的最佳产品 67
3.4.3 发现分支或商店的最佳位置 68
3.4.4 根据未来利润划分客户 68
3.4.5 减少暴露于违约的风险 69
3.4.6 提高客户保留 69
3.4.7 检测欺诈性索赔 70
3.5 不同技术对应的任务 71
3.5.1 有一个或多个目标 72
3.5.2 目标数据是什么 72
3.5.3 输入数据是什么 72
3.5.4 易于使用的重要性 72
3.5.5 模型可解释性的重要性 72
3.6 经验教训 73
第4章 统计学入门:关于数据,你该了解些什么 75
4.1 奥卡姆(Occam)剃刀 76
4.1.1 怀疑论和辛普森悖论 77
4.1.2 零假设(Null Hypothesis) 77
4.1.3 p-值 78
4.2 观察和度量数据 79
4.2.1 类别值 79
4.2.2 数值变量 87
4.2.3 更多的统计思想 89
4.3 度量响应 90
4.3.1 比例标准误差 90
4.3.2 使用置信区间比较结果 91
4.3.3 利用比例差异比较结果 92
4.3.4 样本大小 93
4.3.5 置信区间的真正含义是什么 94
4.3.6 实验中检验和对照的大小 95
4.4 多重比较 96
4.4.1 多重比较的置信水平 96
4.4.2 Bonferroni修正 96
4.5 卡方检验 97
4.5.1 期望值 97
4.5.2 卡方值 98
4.5.3 卡方值与比例差异的比较 100
4.6 示例:区域和开局卡方 101
4.7 案例研究:利用A/B检验比较两种推荐系统 103
4.7.1 第一个指标:参与会话 104
4.7.2 第二个指标:每个会话的日收益 104
4.7.3 第三个指标:每天谁取胜 106
4.7.4 第四个指标:每个会话的平均收益 106
4.7.5 第五个指标:每个客户的增量收益 107
4.8 数据挖掘与统计 107
4.8.1 基本数据中没有度量误差 108
4.8.2 大量的数据 108
4.8.3 无处不在的时间依赖性 109
4.8.4 实验非常困难 109
4.8.5 数据被删截 109
4.9 经验教训 110
第5章 描述和预测:剖析与预测建模 113
5.1 有指导数据挖掘模型 113
5.1.1 定义模型结构和目标 114
5.1.2 增量响应建模 115
5.1.3 模型稳定性 116
5.1.4 模型集中的时间帧 117
5.2 有指导数据挖掘方法 119
5.3 步骤1:把业务问题转化为数据挖掘问题 120
5.3.1 如何使用结果 122
5.3.2 如何交付结果 122
5.3.3 领域专家和信息技术的角色 123
5.4 步骤2:选择合适的数据 123
5.4.1 什么数据可用 124
5.4.2 多少数据才足够 125
5.4.3 需要多久的历史 125
5.4.4 多少变量 126
5.4.5 数据必须包含什么 126
5.5 步骤3:认识数据 126
5.5.1 检查分布 127
5.5.2 值与描述的比较 127
5.5.3 验证假设 127
5.5.4 询问大量问题 128
5.6 步骤4:创建模型集 128
5.6.1 聚合客户签名 128
5.6.2 创建一个平衡的样本 129
5.6.3 包括多个时间帧 130
5.6.4 创建一个预测模型集 130
5.6.5 创建一个剖析模型集 131
5.6.6 划分模型集 132
5.7 步骤5:修复问题数据 132
5.7.1 分类变量的值太多 133
5.7.2 包含偏态分布和离群点的数值变量 133
5.7.3 缺失值 133
5.7.4 含义随时间而变化的值 134
5.7.5 不一致的数据编码 134
5.8 步骤6:转换数据以揭露信息 134
5.9 步骤7:构建模型 134
5.10 步骤8:评估模型 135
5.10.1 评估二元响应模型和分类器 135
5.10.2 利用提升评估二元响应模型 136
5.10.3 利用提升图评估二元响应模型分数 137
5.10.4 利用剖析模型评估二元响应模型得分 139
5.10.5 使用ROC图表评估二元响应模型 139
5.10.6 评估估计模型 141
5.10.7 利用分数排名评估估计模型 141
5.11 步骤9:部署模型 142
5.11.1 模型部署中的实际问题 142
5.11.2 优化模型以进行部署 143
5.12 步骤10:评估结果 143
5.13 步骤11:重新开始 144
5.14 经验教训 144
第6章 使用经典统计技术的数据挖掘 147
6.1 相似度模型 147
6.1.1 相似度和距离 148
6.1.2 示例:产品普及率的相似度模型 148
6.2 表查询模型 153
6.2.1 选择维度 153
6.2.2 维度的划分 154
6.2.3 从训练数据到得分 154
6.2.4 通过删除维度处理稀疏和缺失数据 155
6.3 RFM:一种广泛使用的查询模型 155
6.3.1 RFM单元格迁移 156
6.3.2 RFM与测试和度量(T7est-and-Measure)方法论 156
6.3.3 RFM和增量响应建模 157
6.4 朴素贝叶斯模型 158
6.4.1 概率论的一些思想 158
6.4.2 朴素贝叶斯计算 160
6.4.3 与表查询模型的比较 160
6.5 线性回归 161
6.5.1 最佳拟合曲线 162
6.5.2 拟合的优点 164
6.5.3 全局效应 166
6.6 多元回归 166
6.6.1 等式 166
6.6.2 目标变量的范围 166
6.6.3 解释线性回归方程的系数 167
6.6.4 用线性回归捕捉局部影响 168
6.6.5 使用多元回归的其他注意事项 169
6.6.6 多元回归的变量选择 170
6.7 逻辑回归分析 171
6.7.1 建模二元输出 171
6.7.2 逻辑函数 172
6.8 固定效应和分层效应 174
6.8.1 分层效应 175
6.8.2 内部效应与之间效应 175
6.8.3 固定效应 175
6.9 经验教训 177
第7章 决策树 179
7.1 决策树是什么以及如何使用 180
7.1.1 一棵典型的决策树 180
7.1.2 使用决策树学习客户流失 181
7.1.3 使用决策树来了解数据和选择变量 182
7.1.4 使用决策树生成排名 183
7.1.5 使用决策树估计类别概率 183
7.1.6 使用决策树分类记录 184
7.1.7 使用决策树估计数值 184
7.2 决策树是局部模型 184
7.3 决策树的生长 187
7.3.1 发现初始划分 187
7.3.2 生成整棵决策树 189
7.4 寻找最佳划分 190
7.4.1 Gini(总体多样性)作为划分标准 191
7.4.2 熵减少或信息增益作为划分标准 192
7.4.3 信息增益率 193
7.4.4 卡方检验作为划分标准 194
7.4.5 增量响应作为划分标准 195
7.4.6 减小方差作为数值型目标的划分标准 196
7.4.7 F检验 198
7.5 剪枝 198
7.5.1 CART剪枝算法 198
7.5.2 悲观修剪:C5.0剪枝算法 202
7.5.3 基于稳定性的修剪 202
7.6 从决策树中提取规则 203
7.7 决策树变种 204
7.7.1 多路划分 204
7.7.2 一次在多个字段上进行划分 205
7.7.3 创建非矩形框 205
7.8 评估决策树的质量 209
7.9 什么时候使用决策树才合适 209
7.10 案例研究:咖啡烘焙厂的过程控制 210
7.10.1 模拟器的目标 210
7.10.2 构建烘焙机模拟器 210
7.10.3 评价烘焙机模拟器 211
7.11 经验教训 211
第8章 人工神经网络 213
8.1 历史回顾 214
8.2 生物学模型 215
8.2.1 生物神经元 216
8.2.2 生物输入层 217
8.2.3 生物输出层 217
8.2.4 神经网络与人工智能 217
8.3 人工神经网络 218
8.3.1 人工神经元 218
8.3.2 多层感知器 220
8.3.3 神经网络的一个例子 221
8.3.4 神经网络拓扑结构 223
8.4 应用实例:房地产估价 224
8.5 神经网络的训练 227
8.5.1 神经网络如何使用反向传播算法学习 227
8.5.2 神经网络的修剪 228
8.6 径向基函数网络 230
8.6.1 RBF神经网络概述 230
8.6.2 选择径向基函数的位置 231
8.6.3 万能逼近器 232
8.7 神经网络的应用 233
8.8 选择训练集 235
8.8.1 覆盖特征的所有值 235
8.8.2 特征数 235
8.8.3 训练集大小 235
8.8.4 输出的数目和值域 235
8.8.5 使用MLP的经验规则 235
8.9 数据准备 236
8.10 神经网络输出结果的解释 238
8.11 时间序列神经网络 239
8.11.1 时间序列建模 239
8.11.2 时间序列神经网络的示例 240
8.12 神经网络模型是否能解释 241
8.12.1 灵敏度分析 241
8.12.2 使用规则来描述得分 242
8.13经验教训 242
第9章 最近邻方法:基于记忆的推理和协同过滤 245
9.1 基于记忆的推理 246
9.1.1 类众模型 247
9.1.2 实例:使用MBR估计纽约州Tuxedo镇的房租价格 248
9.2 MBR面临的挑战 250
9.2.1 选择一个平衡的历史记录集 250
9.2.2 训练数据表示 250
9.2.3 确定距离函数、组合函数和邻居数 253
93案例研究:使用MBR分类乳房X线照片异常 253
9.3.1 业务问题:识别X射线异常 253
9.3.2 使用MBR应对这一问题 253
9.3.3 总体解决方案 255
9.4 距离和相似度计算 255
9.4.1 距离函数是什么 256
9.4.2 “一次一个字段”地建立距离函数 257
9.4.3 其他数据类型的距离函数 259
9.4.4 当存在一个距离度量指标时 260
9.5 组合函数:向邻居征求建议 260
9.5.1 最简单的方法:一个邻居 260
9.5.2 针对类别目标的基本方法:民主 261
9.5.3 针对类别目标的加权投票 262
9.5.4 数值目标 262
9.6 案例研究:Shazam——发现音频文件的最近邻居 263
9.6.1 为何这一技能存在挑战 264
9.6.2 音频签名 264
9.6.3 相似度计算 265
9.7 协同过滤:一种用于推荐的最近邻方法 267
9.7.1 构建个人信息 268
9.7.2 比较个人信息 268
9.7.3 预测 269
9.8 经验教训 270
第10章 了解何时应担忧:使用生存分析了解客户 271
10.1 客户生存 273
10.1.1 生存曲线揭示的含义 273
10.1.2 从生存曲线中寻找平均持续期 274
10.1.3 使用生存分析保留客户 276
10.1.4 将生存视为衰变 277
10.2 风险概率 279
10.2.1 基本思想 279
10.2.2 风险函数例子 280
10.2.3 删截 282
10.2.4 风险计算 283
10.2.5 其他类型的删截 284
10.3 从风险到生存 285
10.3.1 保留 285
10.3.2 生存 286
10.3.3 比较保留和生存 287
10.4 比例风险 288
10.4.1 比例风险的示例 288
10.4.2 分层:度量生存的初始影响 289
10.4.3 Cox比例风险 290
10.5 生存分析实践 292
10.5.1 处理不同的客户流失类型 292
10.5.2 客户何时还会返回 293
10.5.3 理解客户价值 295
10.5.4 预测 297
10.5.5 风险随时间变化 298
10.6 经验教训 299
第11章 遗传算法与群体智能 301
11.1 优化 302
11.1.1 优化问题是什么 302
11.1.2 蚁群世界的优化问题 302
11.1.3 合众为一(E Pluribus Unum) 303
11.1.4 聪明的蚂蚁 304
11.2 遗传算法 306
11.2.1 一点历史 306
11.2.2 计算机中的遗传学 306
11.2.3 基因组的表示 312
11.2.4 模式:遗传算法的构造模块 313
11.2.5 超越简单算法 315
11.3 旅行商问题 316
11.3.1 穷举搜索 316
11.3.2 简单的贪婪算法 317
11.3.3 遗传算法的方法 317
11.3.4 群体智慧的方法 317
11.4 案例研究:使用遗传算法优化资源 319
11.5 案例研究:进化出分类投诉的解 320
11.5.1 业务上下文 320
11.5.2 数据 321
11.5.3 评论签名 321
11.5.4 基因组 322
11.5.5 适应度函数 323
11.5.6 结果 323
11.6 经验教训 323
第12章 一些新知识:模式识别与数据挖掘 325
12.1 无指导技术和无指导数据挖掘 326
12.1.1 无指导技术与有指导技术的对比 326
12.1.2 无指导数据挖掘与有指导数据挖掘的对比 327
12.1.3 案例研究:使用有指导技术的无指导数据挖掘 327
12.2 什么是无指导数据挖掘 329
12.2.1 数据探索 329
12.2.2 划分和聚类 330
12.2.3 当目标不明确时目标变量的定义 332
12.2.4 模拟、预测和基于智能体的建模 335
12.3 无指导数据挖掘的方法论 344
12.3.1 不存在方法论 345
12.3.2 需要谨记的事情 345
12.4 经验教训 345
第13章 发现相似的岛屿:自动群集检测 347
13.1 搜索简化的岛屿 348
13.2 客户细分和聚类 349
13.2.1 相似性聚类 350
13.2.2 基于群集划分的跟踪活动 351
13.2.3 聚类揭示被忽视的细分市场 352
13.2.4 适应军队需求 353
13.3 K-均值聚类算法 353
13.3.1 K-均值算法的两个步骤 354
13.3.2 Voronoi图和K-均值群集 355
13.3.3 选择群集种子点 357
13.3.4 选择K值 357
13.3.5 使用K-均值检测离群点 358
13.3.6 半指导聚类 359
13.4 解释群集 359
13.4.1 使用质心表征群集 359
13.4.2 使用群集之间的差异表征群集 360
13.4.3 使用决策树描述群集 361
13.5 评价聚类 362
13.5.1 群集的度量和术语 362
13.5.2 群集轮廓 363
13.5.3 为打分限制群集直径 365
13.6 案例研究:城镇聚类 366
13.6.1 创建城镇签名 366
13.6.2 创建群集 367
13.6.3 确定合适的群集数目 367
13.6.4 评价群集 368
13.6.5 使用人口统计学群集调整区域边界 370
13.6.6 商业成功 370
13.7 K-均值算法的变种算法 371
13.7.1 K-中位数、K-中心点和K-众数 371
13.7.2 K-均值的软层面 374
13.8 聚类的数据准备 375
13.8.1 一致性缩放 375
13.8.2 使用权重编码外部信息 375
13.8.3 选择聚类变量 376
13.9 经验教训 376
第14章 其他的群集检测方法 379
14.1 K-均值聚类的缺点 379
14.1.1 合理性 380
14.1.2 一个直观的例子 380
14.1.3 通过改变度量范围来修正问题 382
14.1.4 这在实际中意味着什么 383
14.2 混合高斯模型 383
14.2.1 把高斯过程引入K-均值聚类 384
14.2.2 回到混合高斯模型 386
14.2.3 混合高斯模型的打分 388
14.2.4 混合高斯模型的应用 388
14.3 分裂聚类 389
14.3.1 一种类决策树的聚类算法 390
14.3.2 分裂聚类的打分 391
14.3.3 群集和树 391
14.4 凝聚(层次化)聚类 392
14.4.1 凝聚聚类方法的综述 392
14.4.2 凝聚聚类算法 395
14.4.3 为凝聚群集打分 397
14.4.4 凝聚聚类的局限性 398
14.4.5 凝聚聚类的实际应用 399
14.5 自组织映射 400
14.5.1 什么是自组织映射 401
14.5.2 SOM的训练 403
14.5.3 SOM的打分 404
14.6 继续搜索简化的岛屿 404
14.7 经验教训 405
第15章 购物篮分析和关联规则 407
15.1 购物篮分析的定义 408
15.1.1 购物篮数据的四个级别 408
15.1.2 购物篮分析的基础:基本度量 409
15.1.3 订单特征 410
15.1.4 项目(产品)人气 411
15.1.5 跟踪市场干预 412
15.2 案例研究:西班牙语或英语 413
15.2.1 业务问题 413
15.2.2 数据 414
15.2.3 “西班牙裔城市”偏好的定义 414
15.2.4 解决方案 415
15.3 关联分析 416
15.3.1 规则不是万能的 416
15.3.2 关联规则中的项目集 418
15.3.3 关联规则的益处 420
15.4 构建关联规则 421
15.4.1 选择正确的项目集 422
15.4.2 从所有这些数据中生成规则 426
15.4.3 克服实际限制 429
15.4.4 大数据问题 432
15.5 思想扩展 432
15.5.1 左右两侧包含不同的项目 432
15.5.2 利用关联规则比较商店 433
15.6 关联规则和交叉销售 434
15.6.1 一个经典的交叉销售模型 435
15.6.2 更可信的倾向度产生方法 435
15.6.3 使用置信度所产生的结果 436
15.7 序列模式分析 436
15.7.1 序列的发现 436
15.7.2 序列关联规则 439
15.7.3 利用其他数据挖掘技术的序列分析 440
15.8 经验教训 440
第16章 链接分析 443
16.1 图论基础 444
16.1.1 图是什么 444
16.1.2 有向图 445
16.1.3 加权图 446
16.1.4 哥尼斯堡的七桥问题 447
16.1.5 图中的回路检测 449
16.1.6 旅行商问题的反思 449
16.2 社交网络分析 452
16.2.1 六度分割理论 453
16.2.2 你朋友说了关于你的什么事情 454
16.2.3 发现托儿福利欺诈 454
16.2.4 交友网站中谁响应了谁 455
16.2.5 社会营销 456
16.3 呼叫图挖掘 456
16.4 案例研究:追踪领袖 458
16.4.1 业务目标 458
16.4.2 数据处理面临的挑战 459
16.4.3 发现呼叫数据中的社交网络 459
16.4.4 这些结果如何用于营销 460
16.4.5 估计客户年龄 460
16.5 案例研究:谁正在家里使用传真机 460
16.5.1 寻找传真机为何有用 461
16.5.2 传真机的行为如何 461
16.5.3 图着色算法 462
16.5.4 对图进行着色以识别传真机 462
16.6 Google如何成为世界的统治者 463
16.6.1 中心和权威 464
16.6.2 算法细节 465
16.6.3 实践中的中心和权威 466
16.7 经验教训 466
第17章 数据仓库、OLAP、分析沙箱和数据挖掘 469
17.1 数据体系结构 470
17.1.1 事务数据:基础层 471
17.1.2 操作汇总数据 472
17.1.3 决策支持汇总数据 472
17.1.4 数据库模式数据模型 473
17.1.5 元数据 476
17.1.6 业务规则 476
17.2 数据仓库的通用体系结构 477
17.2.1 源系统 477
17.2.2 提取、转换和加载 479
17.2.3 中央存储库 479
17.2.4 元数据存储库 481
17.2.5 数据集市 482
17.2.6 操作反馈 482
17.2.7 用户和桌面工具 482
17.3 分析沙箱 484
17.3.1 为什么需要分析沙箱 484
17.3.2 支持分析沙箱的技术 486
17.4 OLAP的适用时机 488
17.4.1 立方体中是什么 490
17.4.2 星型模式 494
17.4.3 OLAP和数据挖掘 495
17.5 数据挖掘与数据仓库如何匹配 496
17.5.1 大量的数据 497
17.5.2 一致的、干净的数据 497
17.5.3 假设检验和度量 498
17.5.4 可扩展的硬件和RDBMS支持 498
17.6 经验教训 499
第18章 构建客户签名 501
18.1 在数据中寻找客户 502
18.1.1 客户是什么 502
18.1.2 账户、客户与家庭 503
18.1.3 匿名事务 503
18.1.4 链接到卡的事务 503
18.1.5 链接到cookie的事务 504
18.1.6 链接到账户的事务 504
18.1.7 链接到客户的事务 505
18.2 设计签名 505
18.2.1 客户签名是否有必要 509
18.2.2 每一行代表什么 509
18.2.3 签名对预测建模有用吗 512
18.2.4 目标已经被定义了吗 513
18.2.5 是否应用了由特定的数据挖掘技术所强加的约束 513
18.2.6 将会引入哪些客户 513
18.2.7 可能想了解客户的哪些情况 514
18.3 签名看起来像什么 514
18.4 创建签名的过程 517
18.4.1 有些数据已处于正确的粒度 517
18.4.2 旋转到规则时间序列 517
18.4.3 聚集时间戳事务 519
18.5 处理缺失值 520
18.5.1 源数据中的缺失值 520
18.5.2 未知或不存在 521
18.5.3 什么不该做 521
18.5.4 需要考虑的事情 523
18.6 经验教训 524
第19章 派生变量:使数据的含义更丰富 527
19.1 基于手机流失率的流失预测 527
19.2 单变量转换 529
19.2.1 标准化数字变量 529
19.2.2 转换数值为百分位数 530
19.2.3 把数量转为比率 530
19.2.4 相对度量 531
19.2.5 把类别变量替换为数值 532
19.3 变量组合 536
19.3.1 经典组合 536
19.3.2 组合高度相关的变量 539
19.4 从时间序列中提取特征 545
19.4.1 趋势 545
19.4.2 季节性 546
19.5 从地理位置中提取特征 547
19.5.1 地理编码 547
19.5.2 映射 548
19.5.3 利用地理位置创建相对度量 549
19.5.4 使用目标变量的历史值 549
19.6 使用模型分数作为输入 550
19.7 稀疏数据的处理 550
19.7.1 账户集模式 550
19.7.2 分箱稀疏值 551
19.8 从事务中捕获客户行为 551
19.8.1 拓宽窄数据 552
19.8.2 影响范围作为良好客户的预测 552
19.8.3 示例:对评分者剖析的评分 553
19.8.4 评分者签名中的样本字段 553
19.8.5 评分签名与派生变量 555
19.9 经验教训 555
第20章 减少变量数量的技术 557
20.1 变量太多存在的问题 558
20.1.1 输入变量之间彼此相关的风险 558
20.1.2 过拟合风险 559
20.2 数据稀疏问题 560
20.2.1 稀疏性的可视化 560
20.2.2 独立性 561
20.2.3 穷举法特征选择 563
20.3 变量约简技术的类型 564
20.3.1 使用目标 564
20.3.2 原始变量与新变量 564
20.4 特征的顺序选择 565
20.4.1 传统的前向选择方法 565
20.4.2 使用验证集的前向选择 566
20.4.3 逐步选择 567
20.4.4 使用非回归的前向选择技术 567
20.4.5 后向选择 567
20.4.6 无指导的前向选择 568
20.5 其他有指导的变量选择方法 568
20.5.1 利用决策树来选择变量 568
20.5.2 使用神经网络来约简变量 571
20.6 主成分 571
20.6.1 主成分是什么 571
20.6.2 主成分分析的例子 575
20.6.3 主成分分析 578
20.6.4 因子分析 581
20.7 变量聚类 582
20.7.1 变量群集的例子 582
20.7.2 使用变量群集 583
20.7.3 层次变量聚类 583
20.7.4 分裂变量聚类 585
20.8 经验教训 586
第21章 仔细聆听客户所述:文本挖掘 587
21.1 什么是文本挖掘 588
21.1.1 文本挖掘用于派生列 588
21.1.2 派生特征之外 588
21.1.3 文本分析应用 589
21.2 处理文本数据 591
21.2.1 文本源 591
21.2.2 语言影响 592
21.2.3 表示文档的基本方法 593
21.2.4 实践中的文档表示 594
21.2.5 文档和语料库 595
21.3 案例研究:特设文本挖掘 595
21.3.1 抵制行动 596
21.3.2 照常营业 596
21.3.3 结合文本挖掘和假设检验 596
21.3.4 结果 597
21.4 使用MBR分类新闻报道 598
21.4.1 什么是编码 598
21.4.2 应用MBR 599
21.4.3 结果 601
21.5 从文本到数字 601
21.5.1 以“词袋”开始 602
21.5.2 词-文档矩阵 603
21.5.3 语料库影响 604
21.5.4 奇异值分解(SVD) 604
21.6 文本挖掘和朴素贝叶斯模型 606
21.6.1 文本世界中的朴素贝叶斯 607
21.6.2 使用朴素贝叶斯识别垃圾邮件 607
21.6.3 情感分析 611
21.7 DIRECTV:客户服务案例研究 613
21.7.1 背景 613
21.7.2 应用文本挖掘 614
21.7.3 采取技术手段 616
21.7.4 持续受益 619
21.8 经验教训 620