《大数据与机器学习 实践方法与行业案例》PDF下载

  • 购买积分:11 如何计算积分?
  • 作  者:陈春宝,阙子扬,钟飞著
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2017
  • ISBN:9787111556800
  • 页数:297 页
图书介绍:本书从企业实践出发,内容覆盖数据、平台、分析和应用等企业内数据流转的主要环节。布局上,按照数据与平台篇、分析篇和应用篇分别撰写。数据与平台篇(第1~3章),立足找到数据、整合数据、使用数据三个角度,介绍数据在企业内的分布和处理逻辑,以便快速为分析准备素材。分析篇(第4~11章),选取企业实际案例,介绍最常用的数据挖掘与机器学习算法,以业务场景为导向展示数据分析过程和技巧。应用篇(第12~15章),选取当前主流的四个应用场景,介绍如何实现数据驱动,让数据“自动”流转于各个环节。

第一部分 数据与平台篇 3

第1章 数据与数据平台 3

1.1 数据的基本形态 4

1.1.1 数据环境与数据形态 4

1.1.2 生产数据 5

1.1.3 原始数据 5

1.1.4 分析数据 6

1.2 数据平台 7

1.2.1 数据仓库平台 9

1.2.2 大数据平台 13

1.2.3 MPP数据库 22

1.2.4 NoSQL数据库 23

1.3 应用系统 24

1.4 本章小结 25

第2章 数据体系 26

2.1 数据闭环 27

2.2 数据缓冲区 28

2.2.1 系统解耦 29

2.2.2 批量导出 31

2.2.3 FTP传输 40

2.2.4 批量导入 42

2.3 ETL 49

2.3.1 ETL工具 50

2.3.2 ETL作业 52

2.4 作业调度 56

2.5 监控和预警 56

2.5.1 使用监控工具进行监控 57

2.5.2 使用BI工具进行监控 57

2.6 本章小结 57

第3章 实战:打造数据闭环 59

3.1 数据缓冲区的基本规则 60

3.1.1 文件存储规则 61

3.1.2 文件命名规则 61

3.1.3 文件清理规则 62

3.2 自动加载的流程 62

3.2.1 扫描文件 63

3.2.2 下载文件 64

3.2.3 解压文件 65

3.2.4 加载文件 65

3.3 自动加载程序的数据库设计 66

3.3.1 数据文件信息表 67

3.3.2 数据文件状态表 68

3.3.3 加载配置信息表 69

3.3.4 数据缓冲区信息表 70

3.3.5 目标服务器表 70

3.4 自动加载程序的多线程实现 71

3.4.1 ScanFiles 72

3.4.2 DownLoadAndUnZip 75

3.4.3 LoadToHive 77

3.4.4 LoadToOracle 78

3.4.5 自动加载程序的部署架构 79

3.4.6 程序的维护和优化 80

3.5 本章小结 80

第二部分 分析篇 83

第4章 数据预处理 83

4.1 数据表的预处理 84

4.2 变量的预处理 85

4.2.1 缺失值的处理 85

4.2.2 极值的处理 90

4.3 变量的设计 91

4.3.1 暴力衍生 91

4.3.2 交叉升维 92

4.4 变量筛选 95

4.4.1 筛选显著变量 95

4.4.2 剔除共线性 96

4.5 本章小结 100

第5章 聚类,简单易用的客户细分方法 101

5.1 从客户细分说起 102

5.1.1 为什么要做客户细分 102

5.1.2 怎么做客户细分 103

5.1.3 聚类分析,无监督的客户细分方法 107

5.2 谱系聚类 107

5.2.1 基本步骤 107

5.2.2 案例:公司客户差异化服务 110

5.2.3 谱系聚类方法的题外话 115

5.3 K-means算法 116

5.3.1 基本步骤 116

5.3.2 案例:电商卖家细分 117

5.3.3 K-means算法的题外话 121

5.4 本章小结 121

第6章 关联规则挖掘,发现产品加载和交叉销售机会 122

6.1 销售的真谛:让客户买得更多 123

6.1.1 案例:电商的生意经 123

6.1.2 案例:富国银行的“商店”经营模式 124

6.1.3 案例总结 125

6.2 交叉销售 126

6.2.1 为什么要做交叉销售 126

6.2.2 怎么做交叉销售 126

6.3 关联规则挖掘,发现交叉销售机会 128

6.3.1 Apriori算法 129

6.3.2 Apriori算法的主要指标 129

6.3.3 Apriori算法的基本步骤 131

6.4 案例:信用卡产品交叉销售 131

6.4.1 准备数据 132

6.4.2 SAS实现 132

6.4.3 结果分析 133

6.4.4 序列关联分析 136

6.4.5 结果应用 137

6.5 本章小结 138

第7章 社交网络分析,从“关系”的角度分析问题 139

7.1 先看几张美轮美奂的图片 140

7.2 社交网络分析方法 142

7.2.1 定义 142

7.2.2 应用场景 142

7.2.3 网络识别算法 143

7.3 案例:电商通过订单数据识别供应链 144

7.3.1 供应链及供应链金融 144

7.3.2 识别核心企业及其上下游关系 144

7.3.3 分析结果的业务应用 149

7.4 案例:P2P投资风险防范 151

7.4.1 案例背景 151

7.4.2 防范方法 152

7.5 本章小结 153

第8章 线性回归,预测客户价值 155

8.1 数值预测 156

8.2 回归与拟合 157

8.2.1 回归就是拟合 157

8.2.2 在Excel中添加趋势线预测 158

8.3 案例:信用卡客户价值预测 159

8.3.1 确定预测目标 159

8.3.2 准备建模数据 161

8.3.3 模型拟合 163

8.3.4 模型评估 165

8.4 基于客户价值分层的业务策略 167

8.5 本章小结 167

第9章 Logistic回归,精准营销的主要支撑算法 169

9.1 大数据时代的精准营销 170

9.1.1 精准营销 170

9.1.2 基于大数据的精准营销模式 171

9.1.3 如何做到精准 172

9.2 Logistic回归算法介绍 173

9.2.1 算法原理 173

9.2.2 关键步骤 174

9.3 案例:信用卡消费信贷产品的精准营销 176

9.3.1 案例背景 176

9.3.2 数据准备 176

9.3.3 数据预处理 180

9.3.4 建模 182

9.3.5 模型评估 185

9.4 预测模型的应用与评估 189

9.5 本章小结 189

第10章 决策树类算法,反欺诈模型“专家” 191

10.1 决策树,重要的分类器 191

10.2 决策树的关键思想 192

10.2.1 理财客户画像案例背景 192

10.2.2 关键思想一:递归划分 194

10.2.3 关键思想二:剪枝 197

10.3 案例:电商盗卡交易风险识别 198

10.3.1 案例背景 198

10.3.2 以SAS实现 199

10.3.3 以Clementine实现 201

10.3.4 以R实现 204

10.4 随机森林 208

10.5 本章小结 209

第11章 数据可视化,是分析更是设计 210

11.1 数据演示之道 210

11.1.1 好“色”之图 211

11.1.2 版式有形 212

11.1.3 数据发声 214

11.2 个性化地图 215

11.2.1 案例背景:存款增长率指标展示 215

11.2.2 获取地理位置的经纬度数据 216

11.2.3 定制地图背景和图标 217

11.2.4 生成地图 220

11.3 文本分析 222

11.3.1 案例:电商的客户评价分析 222

11.3.2 分词 223

11.3.3 词云制作 224

11.3.4 情感分析 225

11.4 本章小结 227

第三部分 应用篇 231

第12章 标签系统 231

12.1 认识标签系统 231

12.2 标签系统的设计 233

12.2.1 标签系统的层次结构 233

12.2.2 标签系统的更新规则 233

12.2.3 机器学习模型转化为标签 235

12.3 标签系统的实现 236

12.3.1 标签映射表 237

12.3.2 标签系统的前端实现 238

12.3.3 标签系统的数据后端实现 238

12.3.4 标签系统的在线接口实现 242

12.4 本章小结 242

第13章 数据自助营销平台 244

13.1 数据自助营销平台的价值所在 245

13.1.1 自动化营销,提升工作效率 245

13.1.2 降低营销成本,提升用户体验 247

13.1.3 个性化营销,提升响应率 248

13.1.4 统一管理,便于效果追踪 249

13.2 数据自助营销平台的实现原则 249

13.2.1 数据营销活动的节点 249

13.2.2 数据自助营销平台的基础:标签系统 251

13.2.3 数据自助营销平台的批量任务 252

13.2.4 实时数据营销 254

13.3 数据自助营销平台的场景实例 254

13.3.1 客户生命周期管理 254

13.3.2 用卡激励计划 257

13.4 本章小结 260

第14章 基于Mahout的个性化推荐系统 261

14.1 Mahout的推荐引擎 262

14.1.1 Mahout的安装配置 262

14.1.2 Mahout的使用方式 263

14.1.3 协同过滤算法 264

14.1.4 Mahout的推荐引擎 265

14.2 规模与效率 268

14.2.1 Mahout推荐算法的适用范围 268

14.2.2 通过分布式解决规模和效率的问题 270

14.3 实现一个推荐系统 275

14.3.1 系统框架 275

14.3.2 推荐系统的刷新 276

14.3.3 部署一个可用的推荐系统 276

14.4 本章小结 280

第15章 图计算与社会网络 281

15.1 社会网络和属性图 282

15.2 Spark GraphX与Neo4j 283

15.2.1 Scala编程语言 284

15.2.2 Cypher查询语言 285

15.3 使用Spark GraphX和Neo4j处理社会网络 286

15.3.1 背景说明 286

15.3.2 数据准备 286

15.3.3 Spark GraphX处理原始网络 287

15.3.4 Neo4j交互式查询分析 291

15.3.5 更多的应用场景 295

15.4 本章小结 296