第1章 数据情怀篇 1
1.1数据之禅 1
1.2数据情怀 1
1.2.1数据情怀这股劲 2
1.2.2对数据情怀的理解 2
1.3大数据时代的我们 4
1.4成为DT时代的先驱者 6
1.4.1数据没有寒冬 6
1.4.2数据生态问题 7
1.4.3健康的数据生态 8
1.4.4结尾 8
第2章 数据入门 9
2.1快速掌握SQL的基础语法 9
2.1.1初识SQL 9
2.1.2学会部署环境 10
2.1.3常用的SQL语法(上篇) 13
2.1.4常用的SQL语法(下篇) 17
2.2在Windows 7操作系统上搭建IPython Notebook 25
2.2.1学习Python的初衷 25
2.2.2搭建IPython Notebook 26
2.2.3 IPython.exe Notebook的使用说明 27
2.2.4配置IPython Notebook远程调用 27
2.3快速掌握Python的基本语法 30
2.4用Python搭建数据分析体系 38
2.4.1构建的初衷 38
2.4.2构建思路 39
2.4.3开发流程 39
2.5 Python学习总结 44
2.5.1关于Python 45
2.5.2 Python其他知识 45
第3章 大数据工具篇 48
3.1 Hadoop伪分布式的安装配置 48
3.1.1部署CentOS环境 48
3.1.2部署Java环境 50
3.1.3部署Hadoop伪分布式环境 51
3.2数据挖掘中的MapReduce编程 54
3.2.1学习MapReduce编程的目的 54
3.2.2 MapReduce的代码规范 55
3.2.3简单的案例 58
3.3利用MapReduce中的矩阵相乘 60
3.3.1矩阵的概念 60
3.3.2不同场景下的矩阵相乘 61
3.4数据挖掘中的Hive技巧 67
3.4.1面试心得 67
3.4.2用Python执行HQL命令 67
3.4.3必知的HQL知识 69
3.5数据挖掘中的HBase技巧 75
3.5.1知晓相关依赖包 75
3.5.2从HBase中获取数据 76
3.5.3往HBase中存储数据 77
第4章 大数据挖掘基础篇 81
4.1 MapReduce和Spark做大数据挖掘的差异 81
4.1.1初识Hadoop生态系统 81
4.1.2知晓Spark的特点 83
4.1.3编程的差异性 85
4.1.4它们之间的灵活转换 88
4.1.5选择合适的工具 89
4.2搭建大数据挖掘开发环境 90
4.3动手实现算法工程 99
4.3.1知晓Spark On Yam的运作模式 101
4.3.2创作第一个数据挖掘算法 102
4.3.3如何理解“朴素”二字 103
4.3.4如何动手实现朴素贝叶斯算法 103
第5章 大数据挖掘认知篇 107
5.1理论与实践的差异 107
5.2数据挖掘中的数据清洗 110
5.2.1数据清洗的那些事 110
5.2.2大数据的必杀技 111
5.2.3实践中的数据清洗 112
5.3数据挖掘中的工具包 120
5.3.1业务模型是何物 120
5.3.2想做一个好的模型 121
第6章 大数据挖掘算法篇 123
6.1时间衰变算法 123
6.1.1何为时间衰变 123
6.1.2如何理解兴趣和偏好 124
6.1.3时间衰变算法的抽象 124
6.1.4采用Spark实现模型 126
6.2熵值法 130
6.2.1何为信息熵 130
6.2.2熵值法的实现过程 130
6.2.3业务场景的介绍 132
6.2.4算法逻辑的抽象 133
6.3预测响应算法 136
6.3.1业务场景的介绍 136
6.3.2构建模型的前期工作 137
6.3.3常用的预测模型 138
6.4层次分析算法 140
6.5工程能力的培养与实践 142
6.5.1工程能力的重要性 142
6.5.2利用Python实现层次分析法 144
第7章 用户画像实践 148
7.1用户画像的应用场景 148
7.1.1背景描述 148
7.1.2需求调研 149
7.2用户画像的标签体系 150
7.2.1需求分析 151
7.2.2标签的构建 151
7.3用户画像的模块化思维 152
7.3.1何为模块化思维 152
7.3.2用户画像与模块化思维 153
7.4用户画像的工程开发 154
7.4.1对于开发框架的选择 154
7.4.2模块化功能的设计 156
7.5用户画像的智能营销 158
7.5.1业务营销 158
7.5.2营销构思 159
7.5.3技术难点 160
第8章 反欺诈实践篇 162
8.1“羊毛党”监控的业务 162
8.1.1“羊毛党”的定义与特点 162
8.1.2“羊毛”存在的必然性 163
8.1.3“羊毛党”的进化 164
8.1.4“羊毛党”存在的利与弊 165
8.1.5“羊毛党”监控平台的意义 165
8.2“羊毛党”监控的设备指纹 166
8.2.1何为设备指纹 166
8.2.2底层参数 167
8.2.3应用场景 168
8.2.4移动端的数据持久化 169
8.2.5设备指纹生成算法 169
8.3“羊毛党”监控的数据驱动 170
8.3.1监控的目的 170
8.3.2数据如何“食用” 172
8.4“羊毛党”监控的实践分享 173
第9章 大数据挖掘践行篇 178
9.1如何从0到1转型到大数据圈子 178
9.2数据挖掘从业者综合能力评估 180
9.2.1度量的初衷 180
9.2.2综合能力评估 181
9.2.3个人指标体系(大数据挖掘) 182
9.3给想要进入数据挖掘圈子的新人一点建议 183
9.3.1诚信与包装 184
9.3.2筹备能力 185
9.3.3投好简历 186
9.3.4把握面试 186
9.3.5结尾 187
后记 数据价值探索与数据产品实践 188