第一部分 本书焦点 3
第1章 数据挖掘概述 3
1.什么是数据挖掘 5
2.数据挖掘能做什么 5
分类 6
估计 6
预测 7
描述与可视化 8
聚类 8
组合或关联法则 8
3.商业领域的数据挖掘 9
作为研究工具的数据挖掘 9
改进生产过程的数据挖掘 10
市场营销中的数据挖掘 11
客户关系管理中的数据挖掘 11
4.技术层面的数据挖掘 12
数据挖掘与机器学习 12
数据挖掘与决策支持 13
数据挖掘与统计学 13
数据挖掘与计算机技术 16
第2章 为什么要精通数据挖掘这门艺术 17
数据挖掘的四种方法 19
购买评分 19
购买软件 20
聘请编外专家 26
培养企业内部骨干 29
本章小结 32
第3章 数据挖掘方法论:互动循环系统 33
1.数据挖掘的两种类型 34
有监督的数据挖掘 34
无监督的数据挖掘 36
2.数据挖掘的互动循环过程 36
3.正确识别业务问题 38
实施数据挖掘是否必要 39
是否存在最让人感兴趣的客户子群或客户细分 39
关于数据 40
相应的行业规范有哪些 40
印证业内专家的观点 41
4.将数据转换成可操作的决策 41
确认和获取数据 42
生成有效数据、探索数据以及清洁数据 44
将数据转换成具有合适的粒度的数据 44
加入衍生变量 45
准备建模数据集 46
检测模型的执行效率 47
选择建模技术和训练模型 47
5.将结果生成决策 49
6.评测模型的有效性 51
7.成功建立预测模型的要点 52
预测模型的时间范围 52
模型的使用有效期 53
假定1:过去是将来的预言家 54
假定2:数据是可以获得的 55
本章小结 56
假定3:数据中应包括我们的预期目标 56
第4章 客户和他们的生命周期 58
1.谁是企业的客户 58
消费者 59
企业客户 60
客户市场细分 63
2.客户的生命周期 65
客户生命周期的不同阶段 66
客户生命周期中的重要事件 68
客户生命周期中不同的时段所产生的资料 71
3.客户的生理生命周期 72
4.选择最佳时机,锁定最佳客户 73
预算最优化 73
促销活动最优化 75
客户最优化 78
本章小结 82
第二部分 数据挖掘的三大支柱 91
第5章 数据挖掘技术与算法 91
1.不同的目标要求不同的技术 92
2.三种数据挖掘技术 94
不同的数据类型要求不同的方法 94
3.自动类别侦测 95
K—均值类别侦测的工作原理 96
选择聚类所产生的后果 99
4.决策树 102
决策树的工作原理 102
决策树的建立过程 104
选择决策树所产生的后果 109
5.神经网络 111
神经网络的训练 115
选择神经网络所产生的后果 116
本章小结 118
第6章 无所不在的数据 119
1.数据结构 120
行 120
列 122
数据挖掘中列的作用 125
2.数据看起来究竟像什么 127
数据挖掘中的数据 127
数据从哪里来 128
粒度的合适水平 136
度量数据取值的不同方法 138
3.多少数据才足够呢 142
4.衍生变量 143
使用衍生变量时应该注意的问题 144
离群点的处 145
列变量的组合 146
分类汇总 147
从某一列中提取信息 149
时间序列 151
5.案例:客户行为的界定 153
6.受污染的数据 161
缺失数据 161
定义模糊 163
谬误值 163
本章小结 165
第7章 建立有效的预测模型 166
预测模型的建立过程 167
1.建立好的预测模 167
对模型效果的衡量 169
模型稳定性 174
保持模型稳定性所面临的挑战 174
2.对模型集进行处理 175
分割与掌握:训练集、测试集与评价集 175
模型集规模对模型效果的影响 176
模型集密度对模型效果的影响 177
抽样 178
何谓过抽样 179
利用时间相关资料来建立模型 184
模型输入和模型输出 185
执行时间:考虑模型的建立时间 187
时间和遗漏数据 190
建立时间上易于转换的模型 191
字段命名 194
3.使用多个模型 195
多个模型的表决 196
将输入分段 199
对模型进行组合的其他原因 201
4.做试验 202
模型集 203
不同类型的模型以及模型参数 204
时间范围 205
本章小结 205
第8章 实施控制:建立数据挖掘环境 207
1.起步 207
何谓数据挖掘环境 208
数据挖掘环境得以成功的要素 209
四个案例研究 209
2.案例1:建造公司内部核心竞争力 210
保险行业的数据挖掘 210
开端 211
3.案例2:创造新的商机 214
向网上发展 214
环境 215
潜在客户的数据仓库 215
4.案例3:在数据仓库工作中培养数据挖掘技能 218
下一个步骤 218
特殊类型的数据仓库 220
数据挖掘的计划 220
信息技术部门内部的数据挖掘 221
5.案例4:利用特斯拉快速建模环境法(RME)进行数据挖掘 221
建立高级数据挖掘环境所需的条件 222
什么是RME 223
RME如何运作 223
RME如何协助数据准备 225
RME如何支持抽样 227
RME如何协助建立模型 228
RME如何协助模型评估和管理 228
本章小结 230
第三部分 案例研究 238
第9章 数据挖掘在目录直销业中的应用——有谁会需要香油袋和长裤拉伸器 238
1.佛蒙特乡村小店 239
VCS的发家史 239
2.商业问题 241
预测模型 241
3.数据 244
4.技术路线 246
数据挖掘软件的选择 246
RFM与细分的基础 246
挑战者——神经网络、决策树和回归分析 249
计算投资回报率 251
5.未来 251
决定可能已经发生的事 251
期望收益 252
本章小结 252
第10章 数据挖掘在在线银行业中的应用——顾客垂青的下一个产品是什么 253
1.获取利润 253
2.商业问题 254
3.数据 255
从账户到客户 258
推出产品 260
4.解决问题的方法 262
如果走起来像只鸭 263
标准分数 263
这个方法的陷阱 264
5.建模 266
决策树模型 269
建立其他模型 277
得到交叉销售模型 277
6.更完美的世界 278
本章小结 279
1.无线通信业 281
第11章 数据挖掘在无线通信业中的应用——客人,您慢些走 281
一个快速成熟的行业 282
与其他行业的区别 284
2.商业问题 285
项目背景 285
无线通信市场的特点 286
何为流失 287
为什么建立流失模型有用 288
三个目标 289
建立流失模型的方法 291
项目简介 293
3.实际应用——寻找流失模型 294
建模工具的选取 294
对模型进行分类 294
最终的四个模型 295
选择建模算法 299
模型集的大小和密度 304
潜伏期的影响(或考虑实际应用) 305
及时更新模型 306
基本客户模型 308
4.数据 308
从通电话到数据 309
顾客历史流失率 310
客户及账单层次的数据 311
服务端数据 311
付费历史资料 311
变量剔除 312
衍生变量 313
听取客户意见 314
5.建立客户流失模型的经验 314
寻找最显著的变量 314
听取数据的声音 315
包含历史流失率 316
构造模型集 317
为流失管理应用建立模型 317
由数据决定模型参数 319
理解算法和工具 319
本章小结 319
第12章 数据挖掘在电信业中的应用——以客户为中心 321
1.数据流程 322
什么是数据流程 322
基础操作 323
并行环境下的数据流程 325
数据流程为何有效率 327
2.业务问题 328
项目背景 328
3.数据 329
重要的市场营销问题 329
通话明细数据 330
客户数据 331
辅助文件 335
4.发现之旅 335
在通话记录中能发现什么 335
每日时段通话分析 338
通话的市场细分 340
国际长途模式 344
什么时候使用者在家 345
因特网服务的提供者 348
专用网络 350
同时发生的通话 352
本章小结 355
第13章 谁正在买什么——超市内的数据挖掘应用 356
1.行业发展趋势 357
超市作为信息中介商 359
将重心由商品转换到客户 360
3.分析不同人种的购买模式 362
2.三个案例 362
商业背景 363
数据 363
可视化工具的成功 365
一个失败的方法 367
恰好与事实相符 368
商业背景 370
数据 370
4.谁在超市购买酸奶 370
从杂货到客户 373
寻找顾客聚类 375
将聚类结果应用到业务中 378
5.谁在健康食品店购买肉 380
购物篮分析用的关联规则 382
人比杂货店更令人感兴趣 384
本章小结 387
第14章 不浪费、不短缺:改善生产流程 389
技术问题 390
1.唐纳利父子公司用以降低成本的数据挖掘技术 390
商业问题 391
数据 391
归纳滚筒条纹惯例 395
印刷厂的改变 397
长期影响 398
2.时代公司减少纸张损耗的努力 398
商业问题 399
数据 401
浪费的种类 404
解决问题的方法 404
可避免的浪费 407
可避免浪费的归纳规则 407
数据转换 408
数据的特性描述和概要 410
决策树 410
关联规则 413
综合 413
本章小结 414