当前位置:首页 > 工业技术
数据挖掘技术  应用于市场营销销售与客户关系管理
数据挖掘技术  应用于市场营销销售与客户关系管理

数据挖掘技术 应用于市场营销销售与客户关系管理PDF电子书下载

工业技术

  • 电子书积分:18 积分如何计算积分?
  • 作 者:(美)林那夫,(美)贝里著;巢文涵,张小明,王芳译
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2013
  • ISBN:9787302310143
  • 页数:620 页
图书介绍:本书共18章,内容涵盖了核心的数据挖掘技术,包括决策树、神经网络、协同过滤、关联规则、链接分析、聚类和生存分析等。此外,还提供了数据挖掘最佳实践的概观、数据挖掘的最新进展和一些极具挑战性的研究课题,其技术深度与广度举世公认。作者注重实效,对每类问题均提供代表性算法,以亲身经历的商业案例为实例,给出每一技术具体的应用法则。
上一篇:断舍离下一篇:先进制造技术
《数据挖掘技术 应用于市场营销销售与客户关系管理》目录

第1章 什么是数据挖掘以及为什么要进行数据挖掘 1

1.1 什么是数据挖掘 2

1.1.1 数据挖掘是一项业务流程 2

1.1.2 大量的数据 2

1.1.3 有意义的模式和规则 3

1.1.4 数据挖掘和客户关系管理 3

1.2 为什么是现在 4

1.2.1 数据正在产生 5

1.2.2 数据正存在于数据仓库中 5

1.2.3 计算能力能够承受 5

1.2.4 对客户关系管理的兴趣非常强烈 5

1.2.5 商业的数据挖掘软件产品变得可用 6

1.3 数据挖掘人员的技能 7

1.4 数据挖掘的良性循环 7

1.5 业务数据挖掘的案例研究 8

1.5.1 识别美国银行的业务挑战 9

1.5.2 应用数据挖掘 9

1.5.3 对结果采取行动 10

1.5.4 度量数据挖掘的影响 11

1.6 良性循环的步骤 11

1.6.1 识别业务机会 12

1.6.2 将数据转换为信息 13

1.6.3 根据信息采取行动 14

1.6.4 度量结果 15

1.7 良性循环上下文中的数据挖掘 17

1.8 经验教训 19

第2章 数据挖掘在营销和客户关系管理中的应用 21

2.1 两个客户生存周期 21

2.1.1 客户个人生存周期 21

2.1.2 客户关系生存周期 22

2.1.3 基于订阅的关系和基于事件的关系 23

2.2 围绕客户生存周期组织业务流程 25

2.2.1 客户获取 25

2.2.2 客户激活 27

2.2.3 客户关系管理 29

2.2.4 赢回 29

2.3 数据挖掘应用于客户获取 30

2.3.1 识别好的潜在客户 30

2.3.2 选择通信渠道 30

2.3.3 挑选适当的信息 31

2.4 数据挖掘示例:选择合适的地方做广告 31

2.4.1 谁符合剖析 31

2.4.2 度量读者群的适应度 33

2.5 数据挖掘改进直接营销活动 34

2.5.1 响应建模 35

2.5.2 优化固定预算的响应 35

2.5.3 优化活动收益率 37

2.5.4 抵达最受信息影响的人 40

2.6 通过当前客户了解潜在客户 41

2.6.1 在客户成为“客户”以前开始跟踪他们 41

2.6.2 收集新的客户信息 41

2.6.3 获取时间变量可以预测将来的结果 42

2.7 数据挖掘应用于客户关系管理 42

2.7.1 匹配客户的活动 42

2.7.2 减少信用风险 43

2.7.3 确定客户价值 44

2.7.4 交叉销售、追加销售和推荐 44

2.8 保留 45

2.8.1 识别流失 45

2.8.2 为什么流失是问题 46

2.8.3 不同类型的流失 46

2.8.4 不同种类的流失模型 47

2.9 超越客户生存周期 48

2.1 0经验教训 48

第3章 数据挖掘过程 51

3.1 会出什么问题 51

3.1.1 学习的东西不真实 52

3.1.2 学习的东西真实但是无用 55

3.2 数据挖掘类型 56

3.2.1 假设检验 56

3.2.2 有指导数据挖掘 60

3.2.3 无指导数据挖掘 61

3.3 目标、任务和技术 61

3.3.1 数据挖掘业务目标 62

3.3.2 数据挖掘任务 62

3.3.3 数据挖掘技术 66

3.4 制定数据挖掘问题:从目标到任务再到技术 66

3.4.1 选择广告的最佳位置 66

3.4.2 确定向客户提供的最佳产品 67

3.4.3 发现分支或商店的最佳位置 68

3.4.4 根据未来利润划分客户 68

3.4.5 减少暴露于违约的风险 69

3.4.6 提高客户保留 69

3.4.7 检测欺诈性索赔 70

3.5 不同技术对应的任务 71

3.5.1 有一个或多个目标 72

3.5.2 目标数据是什么 72

3.5.3 输入数据是什么 72

3.5.4 易于使用的重要性 72

3.5.5 模型可解释性的重要性 72

3.6 经验教训 73

第4章 统计学入门:关于数据,你该了解些什么 75

4.1 奥卡姆(Occam)剃刀 76

4.1.1 怀疑论和辛普森悖论 77

4.1.2 零假设(Null Hypothesis) 77

4.1.3 p-值 78

4.2 观察和度量数据 79

4.2.1 类别值 79

4.2.2 数值变量 87

4.2.3 更多的统计思想 89

4.3 度量响应 90

4.3.1 比例标准误差 90

4.3.2 使用置信区间比较结果 91

4.3.3 利用比例差异比较结果 92

4.3.4 样本大小 93

4.3.5 置信区间的真正含义是什么 94

4.3.6 实验中检验和对照的大小 95

4.4 多重比较 96

4.4.1 多重比较的置信水平 96

4.4.2 Bonferroni修正 96

4.5 卡方检验 97

4.5.1 期望值 97

4.5.2 卡方值 98

4.5.3 卡方值与比例差异的比较 100

4.6 示例:区域和开局卡方 101

4.7 案例研究:利用A/B检验比较两种推荐系统 103

4.7.1 第一个指标:参与会话 104

4.7.2 第二个指标:每个会话的日收益 104

4.7.3 第三个指标:每天谁取胜 106

4.7.4 第四个指标:每个会话的平均收益 106

4.7.5 第五个指标:每个客户的增量收益 107

4.8 数据挖掘与统计 107

4.8.1 基本数据中没有度量误差 108

4.8.2 大量的数据 108

4.8.3 无处不在的时间依赖性 109

4.8.4 实验非常困难 109

4.8.5 数据被删截 109

4.9 经验教训 110

第5章 描述和预测:剖析与预测建模 113

5.1 有指导数据挖掘模型 113

5.1.1 定义模型结构和目标 114

5.1.2 增量响应建模 115

5.1.3 模型稳定性 116

5.1.4 模型集中的时间帧 117

5.2 有指导数据挖掘方法 119

5.3 步骤1:把业务问题转化为数据挖掘问题 120

5.3.1 如何使用结果 122

5.3.2 如何交付结果 122

5.3.3 领域专家和信息技术的角色 123

5.4 步骤2:选择合适的数据 123

5.4.1 什么数据可用 124

5.4.2 多少数据才足够 125

5.4.3 需要多久的历史 125

5.4.4 多少变量 126

5.4.5 数据必须包含什么 126

5.5 步骤3:认识数据 126

5.5.1 检查分布 127

5.5.2 值与描述的比较 127

5.5.3 验证假设 127

5.5.4 询问大量问题 128

5.6 步骤4:创建模型集 128

5.6.1 聚合客户签名 128

5.6.2 创建一个平衡的样本 129

5.6.3 包括多个时间帧 130

5.6.4 创建一个预测模型集 130

5.6.5 创建一个剖析模型集 131

5.6.6 划分模型集 132

5.7 步骤5:修复问题数据 132

5.7.1 分类变量的值太多 133

5.7.2 包含偏态分布和离群点的数值变量 133

5.7.3 缺失值 133

5.7.4 含义随时间而变化的值 134

5.7.5 不一致的数据编码 134

5.8 步骤6:转换数据以揭露信息 134

5.9 步骤7:构建模型 134

5.10 步骤8:评估模型 135

5.10.1 评估二元响应模型和分类器 135

5.10.2 利用提升评估二元响应模型 136

5.10.3 利用提升图评估二元响应模型分数 137

5.10.4 利用剖析模型评估二元响应模型得分 139

5.10.5 使用ROC图表评估二元响应模型 139

5.10.6 评估估计模型 141

5.10.7 利用分数排名评估估计模型 141

5.11 步骤9:部署模型 142

5.11.1 模型部署中的实际问题 142

5.11.2 优化模型以进行部署 143

5.12 步骤10:评估结果 143

5.13 步骤11:重新开始 144

5.14 经验教训 144

第6章 使用经典统计技术的数据挖掘 147

6.1 相似度模型 147

6.1.1 相似度和距离 148

6.1.2 示例:产品普及率的相似度模型 148

6.2 表查询模型 153

6.2.1 选择维度 153

6.2.2 维度的划分 154

6.2.3 从训练数据到得分 154

6.2.4 通过删除维度处理稀疏和缺失数据 155

6.3 RFM:一种广泛使用的查询模型 155

6.3.1 RFM单元格迁移 156

6.3.2 RFM与测试和度量(T7est-and-Measure)方法论 156

6.3.3 RFM和增量响应建模 157

6.4 朴素贝叶斯模型 158

6.4.1 概率论的一些思想 158

6.4.2 朴素贝叶斯计算 160

6.4.3 与表查询模型的比较 160

6.5 线性回归 161

6.5.1 最佳拟合曲线 162

6.5.2 拟合的优点 164

6.5.3 全局效应 166

6.6 多元回归 166

6.6.1 等式 166

6.6.2 目标变量的范围 166

6.6.3 解释线性回归方程的系数 167

6.6.4 用线性回归捕捉局部影响 168

6.6.5 使用多元回归的其他注意事项 169

6.6.6 多元回归的变量选择 170

6.7 逻辑回归分析 171

6.7.1 建模二元输出 171

6.7.2 逻辑函数 172

6.8 固定效应和分层效应 174

6.8.1 分层效应 175

6.8.2 内部效应与之间效应 175

6.8.3 固定效应 175

6.9 经验教训 177

第7章 决策树 179

7.1 决策树是什么以及如何使用 180

7.1.1 一棵典型的决策树 180

7.1.2 使用决策树学习客户流失 181

7.1.3 使用决策树来了解数据和选择变量 182

7.1.4 使用决策树生成排名 183

7.1.5 使用决策树估计类别概率 183

7.1.6 使用决策树分类记录 184

7.1.7 使用决策树估计数值 184

7.2 决策树是局部模型 184

7.3 决策树的生长 187

7.3.1 发现初始划分 187

7.3.2 生成整棵决策树 189

7.4 寻找最佳划分 190

7.4.1 Gini(总体多样性)作为划分标准 191

7.4.2 熵减少或信息增益作为划分标准 192

7.4.3 信息增益率 193

7.4.4 卡方检验作为划分标准 194

7.4.5 增量响应作为划分标准 195

7.4.6 减小方差作为数值型目标的划分标准 196

7.4.7 F检验 198

7.5 剪枝 198

7.5.1 CART剪枝算法 198

7.5.2 悲观修剪:C5.0剪枝算法 202

7.5.3 基于稳定性的修剪 202

7.6 从决策树中提取规则 203

7.7 决策树变种 204

7.7.1 多路划分 204

7.7.2 一次在多个字段上进行划分 205

7.7.3 创建非矩形框 205

7.8 评估决策树的质量 209

7.9 什么时候使用决策树才合适 209

7.10 案例研究:咖啡烘焙厂的过程控制 210

7.10.1 模拟器的目标 210

7.10.2 构建烘焙机模拟器 210

7.10.3 评价烘焙机模拟器 211

7.11 经验教训 211

第8章 人工神经网络 213

8.1 历史回顾 214

8.2 生物学模型 215

8.2.1 生物神经元 216

8.2.2 生物输入层 217

8.2.3 生物输出层 217

8.2.4 神经网络与人工智能 217

8.3 人工神经网络 218

8.3.1 人工神经元 218

8.3.2 多层感知器 220

8.3.3 神经网络的一个例子 221

8.3.4 神经网络拓扑结构 223

8.4 应用实例:房地产估价 224

8.5 神经网络的训练 227

8.5.1 神经网络如何使用反向传播算法学习 227

8.5.2 神经网络的修剪 228

8.6 径向基函数网络 230

8.6.1 RBF神经网络概述 230

8.6.2 选择径向基函数的位置 231

8.6.3 万能逼近器 232

8.7 神经网络的应用 233

8.8 选择训练集 235

8.8.1 覆盖特征的所有值 235

8.8.2 特征数 235

8.8.3 训练集大小 235

8.8.4 输出的数目和值域 235

8.8.5 使用MLP的经验规则 235

8.9 数据准备 236

8.10 神经网络输出结果的解释 238

8.11 时间序列神经网络 239

8.11.1 时间序列建模 239

8.11.2 时间序列神经网络的示例 240

8.12 神经网络模型是否能解释 241

8.12.1 灵敏度分析 241

8.12.2 使用规则来描述得分 242

8.13经验教训 242

第9章 最近邻方法:基于记忆的推理和协同过滤 245

9.1 基于记忆的推理 246

9.1.1 类众模型 247

9.1.2 实例:使用MBR估计纽约州Tuxedo镇的房租价格 248

9.2 MBR面临的挑战 250

9.2.1 选择一个平衡的历史记录集 250

9.2.2 训练数据表示 250

9.2.3 确定距离函数、组合函数和邻居数 253

93案例研究:使用MBR分类乳房X线照片异常 253

9.3.1 业务问题:识别X射线异常 253

9.3.2 使用MBR应对这一问题 253

9.3.3 总体解决方案 255

9.4 距离和相似度计算 255

9.4.1 距离函数是什么 256

9.4.2 “一次一个字段”地建立距离函数 257

9.4.3 其他数据类型的距离函数 259

9.4.4 当存在一个距离度量指标时 260

9.5 组合函数:向邻居征求建议 260

9.5.1 最简单的方法:一个邻居 260

9.5.2 针对类别目标的基本方法:民主 261

9.5.3 针对类别目标的加权投票 262

9.5.4 数值目标 262

9.6 案例研究:Shazam——发现音频文件的最近邻居 263

9.6.1 为何这一技能存在挑战 264

9.6.2 音频签名 264

9.6.3 相似度计算 265

9.7 协同过滤:一种用于推荐的最近邻方法 267

9.7.1 构建个人信息 268

9.7.2 比较个人信息 268

9.7.3 预测 269

9.8 经验教训 270

第10章 了解何时应担忧:使用生存分析了解客户 271

10.1 客户生存 273

10.1.1 生存曲线揭示的含义 273

10.1.2 从生存曲线中寻找平均持续期 274

10.1.3 使用生存分析保留客户 276

10.1.4 将生存视为衰变 277

10.2 风险概率 279

10.2.1 基本思想 279

10.2.2 风险函数例子 280

10.2.3 删截 282

10.2.4 风险计算 283

10.2.5 其他类型的删截 284

10.3 从风险到生存 285

10.3.1 保留 285

10.3.2 生存 286

10.3.3 比较保留和生存 287

10.4 比例风险 288

10.4.1 比例风险的示例 288

10.4.2 分层:度量生存的初始影响 289

10.4.3 Cox比例风险 290

10.5 生存分析实践 292

10.5.1 处理不同的客户流失类型 292

10.5.2 客户何时还会返回 293

10.5.3 理解客户价值 295

10.5.4 预测 297

10.5.5 风险随时间变化 298

10.6 经验教训 299

第11章 遗传算法与群体智能 301

11.1 优化 302

11.1.1 优化问题是什么 302

11.1.2 蚁群世界的优化问题 302

11.1.3 合众为一(E Pluribus Unum) 303

11.1.4 聪明的蚂蚁 304

11.2 遗传算法 306

11.2.1 一点历史 306

11.2.2 计算机中的遗传学 306

11.2.3 基因组的表示 312

11.2.4 模式:遗传算法的构造模块 313

11.2.5 超越简单算法 315

11.3 旅行商问题 316

11.3.1 穷举搜索 316

11.3.2 简单的贪婪算法 317

11.3.3 遗传算法的方法 317

11.3.4 群体智慧的方法 317

11.4 案例研究:使用遗传算法优化资源 319

11.5 案例研究:进化出分类投诉的解 320

11.5.1 业务上下文 320

11.5.2 数据 321

11.5.3 评论签名 321

11.5.4 基因组 322

11.5.5 适应度函数 323

11.5.6 结果 323

11.6 经验教训 323

第12章 一些新知识:模式识别与数据挖掘 325

12.1 无指导技术和无指导数据挖掘 326

12.1.1 无指导技术与有指导技术的对比 326

12.1.2 无指导数据挖掘与有指导数据挖掘的对比 327

12.1.3 案例研究:使用有指导技术的无指导数据挖掘 327

12.2 什么是无指导数据挖掘 329

12.2.1 数据探索 329

12.2.2 划分和聚类 330

12.2.3 当目标不明确时目标变量的定义 332

12.2.4 模拟、预测和基于智能体的建模 335

12.3 无指导数据挖掘的方法论 344

12.3.1 不存在方法论 345

12.3.2 需要谨记的事情 345

12.4 经验教训 345

第13章 发现相似的岛屿:自动群集检测 347

13.1 搜索简化的岛屿 348

13.2 客户细分和聚类 349

13.2.1 相似性聚类 350

13.2.2 基于群集划分的跟踪活动 351

13.2.3 聚类揭示被忽视的细分市场 352

13.2.4 适应军队需求 353

13.3 K-均值聚类算法 353

13.3.1 K-均值算法的两个步骤 354

13.3.2 Voronoi图和K-均值群集 355

13.3.3 选择群集种子点 357

13.3.4 选择K值 357

13.3.5 使用K-均值检测离群点 358

13.3.6 半指导聚类 359

13.4 解释群集 359

13.4.1 使用质心表征群集 359

13.4.2 使用群集之间的差异表征群集 360

13.4.3 使用决策树描述群集 361

13.5 评价聚类 362

13.5.1 群集的度量和术语 362

13.5.2 群集轮廓 363

13.5.3 为打分限制群集直径 365

13.6 案例研究:城镇聚类 366

13.6.1 创建城镇签名 366

13.6.2 创建群集 367

13.6.3 确定合适的群集数目 367

13.6.4 评价群集 368

13.6.5 使用人口统计学群集调整区域边界 370

13.6.6 商业成功 370

13.7 K-均值算法的变种算法 371

13.7.1 K-中位数、K-中心点和K-众数 371

13.7.2 K-均值的软层面 374

13.8 聚类的数据准备 375

13.8.1 一致性缩放 375

13.8.2 使用权重编码外部信息 375

13.8.3 选择聚类变量 376

13.9 经验教训 376

第14章 其他的群集检测方法 379

14.1 K-均值聚类的缺点 379

14.1.1 合理性 380

14.1.2 一个直观的例子 380

14.1.3 通过改变度量范围来修正问题 382

14.1.4 这在实际中意味着什么 383

14.2 混合高斯模型 383

14.2.1 把高斯过程引入K-均值聚类 384

14.2.2 回到混合高斯模型 386

14.2.3 混合高斯模型的打分 388

14.2.4 混合高斯模型的应用 388

14.3 分裂聚类 389

14.3.1 一种类决策树的聚类算法 390

14.3.2 分裂聚类的打分 391

14.3.3 群集和树 391

14.4 凝聚(层次化)聚类 392

14.4.1 凝聚聚类方法的综述 392

14.4.2 凝聚聚类算法 395

14.4.3 为凝聚群集打分 397

14.4.4 凝聚聚类的局限性 398

14.4.5 凝聚聚类的实际应用 399

14.5 自组织映射 400

14.5.1 什么是自组织映射 401

14.5.2 SOM的训练 403

14.5.3 SOM的打分 404

14.6 继续搜索简化的岛屿 404

14.7 经验教训 405

第15章 购物篮分析和关联规则 407

15.1 购物篮分析的定义 408

15.1.1 购物篮数据的四个级别 408

15.1.2 购物篮分析的基础:基本度量 409

15.1.3 订单特征 410

15.1.4 项目(产品)人气 411

15.1.5 跟踪市场干预 412

15.2 案例研究:西班牙语或英语 413

15.2.1 业务问题 413

15.2.2 数据 414

15.2.3 “西班牙裔城市”偏好的定义 414

15.2.4 解决方案 415

15.3 关联分析 416

15.3.1 规则不是万能的 416

15.3.2 关联规则中的项目集 418

15.3.3 关联规则的益处 420

15.4 构建关联规则 421

15.4.1 选择正确的项目集 422

15.4.2 从所有这些数据中生成规则 426

15.4.3 克服实际限制 429

15.4.4 大数据问题 432

15.5 思想扩展 432

15.5.1 左右两侧包含不同的项目 432

15.5.2 利用关联规则比较商店 433

15.6 关联规则和交叉销售 434

15.6.1 一个经典的交叉销售模型 435

15.6.2 更可信的倾向度产生方法 435

15.6.3 使用置信度所产生的结果 436

15.7 序列模式分析 436

15.7.1 序列的发现 436

15.7.2 序列关联规则 439

15.7.3 利用其他数据挖掘技术的序列分析 440

15.8 经验教训 440

第16章 链接分析 443

16.1 图论基础 444

16.1.1 图是什么 444

16.1.2 有向图 445

16.1.3 加权图 446

16.1.4 哥尼斯堡的七桥问题 447

16.1.5 图中的回路检测 449

16.1.6 旅行商问题的反思 449

16.2 社交网络分析 452

16.2.1 六度分割理论 453

16.2.2 你朋友说了关于你的什么事情 454

16.2.3 发现托儿福利欺诈 454

16.2.4 交友网站中谁响应了谁 455

16.2.5 社会营销 456

16.3 呼叫图挖掘 456

16.4 案例研究:追踪领袖 458

16.4.1 业务目标 458

16.4.2 数据处理面临的挑战 459

16.4.3 发现呼叫数据中的社交网络 459

16.4.4 这些结果如何用于营销 460

16.4.5 估计客户年龄 460

16.5 案例研究:谁正在家里使用传真机 460

16.5.1 寻找传真机为何有用 461

16.5.2 传真机的行为如何 461

16.5.3 图着色算法 462

16.5.4 对图进行着色以识别传真机 462

16.6 Google如何成为世界的统治者 463

16.6.1 中心和权威 464

16.6.2 算法细节 465

16.6.3 实践中的中心和权威 466

16.7 经验教训 466

第17章 数据仓库、OLAP、分析沙箱和数据挖掘 469

17.1 数据体系结构 470

17.1.1 事务数据:基础层 471

17.1.2 操作汇总数据 472

17.1.3 决策支持汇总数据 472

17.1.4 数据库模式数据模型 473

17.1.5 元数据 476

17.1.6 业务规则 476

17.2 数据仓库的通用体系结构 477

17.2.1 源系统 477

17.2.2 提取、转换和加载 479

17.2.3 中央存储库 479

17.2.4 元数据存储库 481

17.2.5 数据集市 482

17.2.6 操作反馈 482

17.2.7 用户和桌面工具 482

17.3 分析沙箱 484

17.3.1 为什么需要分析沙箱 484

17.3.2 支持分析沙箱的技术 486

17.4 OLAP的适用时机 488

17.4.1 立方体中是什么 490

17.4.2 星型模式 494

17.4.3 OLAP和数据挖掘 495

17.5 数据挖掘与数据仓库如何匹配 496

17.5.1 大量的数据 497

17.5.2 一致的、干净的数据 497

17.5.3 假设检验和度量 498

17.5.4 可扩展的硬件和RDBMS支持 498

17.6 经验教训 499

第18章 构建客户签名 501

18.1 在数据中寻找客户 502

18.1.1 客户是什么 502

18.1.2 账户、客户与家庭 503

18.1.3 匿名事务 503

18.1.4 链接到卡的事务 503

18.1.5 链接到cookie的事务 504

18.1.6 链接到账户的事务 504

18.1.7 链接到客户的事务 505

18.2 设计签名 505

18.2.1 客户签名是否有必要 509

18.2.2 每一行代表什么 509

18.2.3 签名对预测建模有用吗 512

18.2.4 目标已经被定义了吗 513

18.2.5 是否应用了由特定的数据挖掘技术所强加的约束 513

18.2.6 将会引入哪些客户 513

18.2.7 可能想了解客户的哪些情况 514

18.3 签名看起来像什么 514

18.4 创建签名的过程 517

18.4.1 有些数据已处于正确的粒度 517

18.4.2 旋转到规则时间序列 517

18.4.3 聚集时间戳事务 519

18.5 处理缺失值 520

18.5.1 源数据中的缺失值 520

18.5.2 未知或不存在 521

18.5.3 什么不该做 521

18.5.4 需要考虑的事情 523

18.6 经验教训 524

第19章 派生变量:使数据的含义更丰富 527

19.1 基于手机流失率的流失预测 527

19.2 单变量转换 529

19.2.1 标准化数字变量 529

19.2.2 转换数值为百分位数 530

19.2.3 把数量转为比率 530

19.2.4 相对度量 531

19.2.5 把类别变量替换为数值 532

19.3 变量组合 536

19.3.1 经典组合 536

19.3.2 组合高度相关的变量 539

19.4 从时间序列中提取特征 545

19.4.1 趋势 545

19.4.2 季节性 546

19.5 从地理位置中提取特征 547

19.5.1 地理编码 547

19.5.2 映射 548

19.5.3 利用地理位置创建相对度量 549

19.5.4 使用目标变量的历史值 549

19.6 使用模型分数作为输入 550

19.7 稀疏数据的处理 550

19.7.1 账户集模式 550

19.7.2 分箱稀疏值 551

19.8 从事务中捕获客户行为 551

19.8.1 拓宽窄数据 552

19.8.2 影响范围作为良好客户的预测 552

19.8.3 示例:对评分者剖析的评分 553

19.8.4 评分者签名中的样本字段 553

19.8.5 评分签名与派生变量 555

19.9 经验教训 555

第20章 减少变量数量的技术 557

20.1 变量太多存在的问题 558

20.1.1 输入变量之间彼此相关的风险 558

20.1.2 过拟合风险 559

20.2 数据稀疏问题 560

20.2.1 稀疏性的可视化 560

20.2.2 独立性 561

20.2.3 穷举法特征选择 563

20.3 变量约简技术的类型 564

20.3.1 使用目标 564

20.3.2 原始变量与新变量 564

20.4 特征的顺序选择 565

20.4.1 传统的前向选择方法 565

20.4.2 使用验证集的前向选择 566

20.4.3 逐步选择 567

20.4.4 使用非回归的前向选择技术 567

20.4.5 后向选择 567

20.4.6 无指导的前向选择 568

20.5 其他有指导的变量选择方法 568

20.5.1 利用决策树来选择变量 568

20.5.2 使用神经网络来约简变量 571

20.6 主成分 571

20.6.1 主成分是什么 571

20.6.2 主成分分析的例子 575

20.6.3 主成分分析 578

20.6.4 因子分析 581

20.7 变量聚类 582

20.7.1 变量群集的例子 582

20.7.2 使用变量群集 583

20.7.3 层次变量聚类 583

20.7.4 分裂变量聚类 585

20.8 经验教训 586

第21章 仔细聆听客户所述:文本挖掘 587

21.1 什么是文本挖掘 588

21.1.1 文本挖掘用于派生列 588

21.1.2 派生特征之外 588

21.1.3 文本分析应用 589

21.2 处理文本数据 591

21.2.1 文本源 591

21.2.2 语言影响 592

21.2.3 表示文档的基本方法 593

21.2.4 实践中的文档表示 594

21.2.5 文档和语料库 595

21.3 案例研究:特设文本挖掘 595

21.3.1 抵制行动 596

21.3.2 照常营业 596

21.3.3 结合文本挖掘和假设检验 596

21.3.4 结果 597

21.4 使用MBR分类新闻报道 598

21.4.1 什么是编码 598

21.4.2 应用MBR 599

21.4.3 结果 601

21.5 从文本到数字 601

21.5.1 以“词袋”开始 602

21.5.2 词-文档矩阵 603

21.5.3 语料库影响 604

21.5.4 奇异值分解(SVD) 604

21.6 文本挖掘和朴素贝叶斯模型 606

21.6.1 文本世界中的朴素贝叶斯 607

21.6.2 使用朴素贝叶斯识别垃圾邮件 607

21.6.3 情感分析 611

21.7 DIRECTV:客户服务案例研究 613

21.7.1 背景 613

21.7.2 应用文本挖掘 614

21.7.3 采取技术手段 616

21.7.4 持续受益 619

21.8 经验教训 620

返回顶部