第0章 说在前面的话 1
0.1 大数据分析案例 1
0.2 数据分析 2
0.2.1 数据分析不同于信息化系统 3
0.2.2 数据分析不同于统计分析 3
0.2.3 数据分析不同于数据挖掘 4
0.2.4 数据分析不同于数据管理 4
0.2.5 数据分析不同于商业智能 4
0.2.6 数据分析的内容 5
0.3 数据分析师 7
0.3.1 什么是数据分析师 7
0.3.2 基本要求 8
0.4 数据分析过程 10
0.4.1 业务理解 11
0.4.2 指标设计 12
0.4.3 数据建模 12
0.4.4 分析报告 13
业务理解篇 15
第1章 正确的思维观 15
1.1 数据思维 15
1.2 统计思维 16
1.2.1 统计学 16
1.2.2 描述 17
1.2.3 概括 20
1.2.4 分析 23
1.3 逻辑思维 24
1.3.1 上取/下钻思维 24
1.3.2 求同/求异思维 25
1.3.3 抽离/联合思维 25
1.3.4 离开/接近思维 25
1.3.5 层次思维 26
第2章 理解数据 27
2.1 数据是什么 27
2.2 数据所依存的背景 28
2.3 数据维度 29
2.4 数据敏感 32
2.5 数据质量 34
2.6 理解数据要注意的问题 35
2.6.1 不要对完美数据的盲目执着 35
2.6.2 小样本数据也能做数据分析 36
第3章 理解业务 38
3.1 全局了解——业务模型 38
3.2 动态了解——流程模型 38
3.3 静态了解——数据模型 39
3.4 动静结合——关键业务分析 39
3.5 数据业务化 40
第4章 理解用户 42
4.1 由粗到细,从宏观到微观 42
4.2 由少到多,收集不同层次的需求 42
4.3 数据分析师对理解用户需求的思考 43
4.3.1 如何用需求分析明确产品目标? 43
4.3.2 数据分析师理解用户需求应该具备的基本素养 45
4.3.3 如何根据用户行为去驱动产品? 46
指标设计篇 49
第5章 数据准备 49
5.1 数据探索 49
5.1.1 缺失值分析与处理 49
5.1.2 异常值分析与处理 53
5.1.3 不一致数据分析 61
5.2 数据整理 62
5.2.1 规范化 64
5.2.2 数据选择 65
5.2.3 数据归约 68
5.2.4 数据变换 70
5.3 数据集成 71
5.3.1 通过向量化重构数据 71
5.3.2 为数据添加新变量 72
5.3.3 数据透视表 74
5.3.4 列联表 78
5.3.5 数据整合 79
5.3.6 分组计算 83
第6章 数据指标 86
6.1 指标和维度 86
6.2 特征工程 87
6.2.1 特征工程作用 87
6.2.2 特征设计 88
6.2.3 特征选择 90
6.2.4 特征提取 90
6.3 指标设计基本方法 90
6.3.1 生成用于判别的变量 90
6.3.2 生成离散变量 91
6.3.3 业务标签化 91
6.4 典型业务指标设计 92
6.4.1 零售店铺数据分析指标 92
6.4.2 电商数据分析指标 94
第7章 数据认知 101
7.1 认知数据的平均水平和波动情况 101
7.2 认知数据的分布 102
7.3 利用相关系数理解数据之间的关系 103
7.4 通过对比认知数据 107
7.5 通过多维交叉来深入认知数据 108
7.6 周期性分析 108
7.7 贡献度分析 109
7.8 因子分析 111
数据建模篇 114
第8章 神经网络 114
8.1 模型原理 114
8.2 进阶指导 115
第9章 回归分析 117
9.1 模型原理 117
9.2 进阶指导 119
第10章 聚类分析 122
10.1 模型原理 122
10.2 进阶指导 123
第11章 关联分析 129
11.1 模型原理 129
11.2 进阶指导 130
第12章 决策树 134
12.1 模型原理 134
12.2 进阶指导 135
第13章 随机森林决策树 138
13.1 模型原理 138
13.2 进阶指导 138
第14章 自适应选择决策树 142
14.1 模型原理 142
14.2 进阶指导 143
第15章 SVM 146
15.1 模型原理 146
15.2 进阶指导 148
第16章 建模指导 149
16.1 建模要注意的问题 149
16.2 R语言中建模常用包 150
16.3 数据分析模型的原理和应用场景 151
价值展现篇 158
第17章 如何写好数据分析报告 158
17.1 数据的价值 158
17.1.1 收入 158
17.1.2 支出 159
17.1.3 风险 159
17.1.4 参照系 160
17.2 讲故事 160
17.2.1 数据讲故事的四大要点 161
17.2.2 阿里指数能告诉你 161
17.3 如何写报告 166
17.3.1 写作原则 166
17.3.2 报告的类型和分析能力 166
17.3.3 报告的细节 168
17.4 报告的结构 168
17.4.1 标题 168
17.4.2 背景与目标 169
17.4.3 项目说明 169
17.4.4 分析思路 170
17.4.5 分析主体 170
17.4.6 总结与建议 171
17.5 文字表达 172
17.5.1 突出关键信息 172
17.5.2 避免啰唆的表达 172
17.5.3 站在读者角度 173
17.5.4 不带主观臆断 173
17.6 分析过程 173
17.6.1 样本选择 173
17.6.2 方法实施 175
17.7 注意事项 175
第18章 数据可视化 177
18.1 什么是数据可视化 177
18.2 数据可视化的作用 178
18.3 可视化建议 180
18.4 科学与艺术的结合 182
18.5 可视化细节 186
18.6 R语言绘图 187
18.6.1 低水平绘图命令 187
18.6.2 高水平绘图命令 192
18.6.3 交互式绘图命令 201
18.7 图形适用场景 214
第19章 数据分析报告制作工具 220
19.1 knitr包 220
19.1.1 安装knitr 220
19.1.2 Markdown语法 221
19.1.3 报告制作 223
19.2 rmarkdown包 224
19.2.1 创建RMarkdown 225
19.2.2 RMarkdown文本处理 225
19.2.3 插入代码块 226
19.2.4 结果的输出 227
实战进阶篇 231
第20章 校园网中推荐者的推荐价值分析 231
20.1 业务理解 231
20.2 指标设计 232
20.3 描述性分析 234
20.4 模型分析 236
20.5 分析报告 237
第21章 上市企业财务报表分析与ST预测 240
21.1 业务理解 240
21.2 指标设计 241
21.3 描述性分析 244
21.4 模型分析 246
21.5 分析报告 247
第22章 为什么销售会减少——验证性分析 250
22.1 业务理解 250
22.2 指标设计 250
22.3 描述性分析 254
22.4 结论与建议 255
第23章 什么样的顾客会选择离开——探索性分析 256
23.1 业务理解 256
23.2 指标设计 257
23.3 描述性分析 258
23.4 结论与建议 260
第24章 哪种广告的效果更好——假设检验 261
24.1 业务理解 261
24.2 数据建模 262
24.3 模型分析 264
24.4 结论与建议 267
第25章 如何获得更多的用户——多元回归分析 268
25.1 业务理解 268
25.2 数据建模 269
25.3 模型分析 269
25.4 结论与建议 271
第26章 航空公司顾客价值分析——聚类 272
26.1 业务理解 272
26.2 指标设计 272
26.3 模型构建 278
26.4 模型评价 278
26.5 结论与建议 280
第27章 窃电用户行为分析——决策树 282
27.1 业务理解 282
27.2 简单指标设计 283
27.3 描述性分析 286
27.4 复杂指标设计 288
27.5 数据建模 291
27.6 模型分析 294
27.7 结论与建议 295
参考文献 296
附录 297
附录A R语言中常用数据处理函数 297
附录B 大数据原理 303
附录C 可视化数据挖掘Rattle包 308
后记 311