第一章 为什么市场需要数据分析师 1
1.1 大数据的前世今生 2
1.2 大数据的具体定义 4
1.3 数据分析行业现状及巨大缺口 6
第二章 什么是数据分析师 9
2.1 明确两个概念 10
2.2 从四份招聘简历说起 11
2.2.1 第一份招聘简历要求 11
2.2.2 第二份招聘简历要求 12
2.2.3 第三份招聘简历要求 12
2.2.4 第四份招聘简历要求 13
2.3 数据分析师常见专业出身 14
2.3.1 数学与应用数学、统计学专业 14
2.3.2 经济管理类专业 16
2.3.3 计算机理论类专业 18
2.3.4 计算机应用类专业 20
2.3.5 其他专业 21
2.4 数据分析师可从事行业 22
2.4.1 互联网行业 22
2.4.2 制造行业 23
2.4.3 投资分析行业 23
2.4.4 咨询行业 24
2.4.5 其他类公司综述 24
第三章 如何成为数据分析师 25
3.1 数据分析师基础知识储备 26
3.1.1 基础统计知识 26
3.1.2 基础的数据库知识 27
3.1.3 Office办公软件和专业数据分析工具 27
3.1.4 基础算法编程知识 28
3.1.5 业务知识 29
3.1.6 一些数据分析经验 29
3.1.7 小结 30
3.2 数据分析师常用工具盘点 31
3.2.1 Excel 31
3.2.2 SPSS 32
3.2.3 STATA 32
3.2.4 Eviews 33
3.2.5 SAS 33
3.2.6 Matlab 33
3.2.7 R 34
3.2.8 小结 34
3.3 数据分析师应该学习的网络课程 35
3.3.1 MOOC类课程 35
3.3.2 网上学习平台 37
3.3.3 现场培训班 38
第四章 描述性统计分析 39
4.1 频数分布分析:用统计图解决伦敦霍乱 40
4.1.1 可怕的英国霍乱 40
4.1.2 约翰医生的实地调查 41
4.1.3 对伦敦霍乱平息过程的分析 43
4.1.4 频数分布分析总结 44
4.2 关注数据代表性:统计学家改良轰炸机 45
4.2.1 “二战”盟国轰炸德国伤亡惨重 45
4.2.2 轰炸机的返航率得到提高 46
4.2.3 对轰炸机改进过程的分析 48
4.2.4 数据代表性总结 49
4.3 异常值分析:1号店提升营销精准率 50
4.3.1 1号店的数据分析案例 50
4.3.2 1号店数据分析过程 51
4.3.3 异常值分析总结 54
4.4 对比分析:刻画豆瓣变现具体压力 55
4.4.1 豆瓣变现的难题 55
4.4.2 豆瓣变现的具体压力 56
4.4.3 对比分析总结 59
4.5 描述性统计分析概述:淘宝箱店类目分析 60
4.5.1 淘宝箱店类目背景 60
4.5.2 箱店类目分析实解 61
4.5.3 描述性统计分析小结 63
第五章 相关分析与回归分析 65
5.1 相关分析与回归分析基础 66
5.2 矩阵分解:价值百万美元的Netfilx推荐系统 67
5.2.1 Netfilx为推荐系统悬赏百万美元 68
5.2.2 构建一个推荐系统 69
5.2.3 矩阵分解小结 71
5.3 一元线性回归:引发金融危机的风险价值模型 72
5.3.1 广受欢迎的风险价值模型 72
5.3.2 评估一个理财产品的风险 74
5.3.3 一元线性回归小结 77
5.4 评分系统:星巴克选址借力大数据 77
5.4.1 越来越难以选择的快餐店地址 78
5.4.2 多元线性回归与评分系统 79
5.4.3 评分系统小结 81
5.5 相关分析与回归分析概述:奥巴马使用大数据赢得大选 82
5.5.1 神奇的Survey Manager系统 82
5.5.2 美国大选详细解读 84
5.5.3 相关分析与回归分析总结 87
第六章 关联分析与聚类分析 89
6.1 关联分析与聚类分析基础 90
6.2 购物篮分析:啤酒与尿布的经典案例 92
6.2.1 沃尔玛超市里的啤酒与尿布 92
6.2.2 购物篮分析案例实解 93
6.2.3 购物篮分析小结 96
6.3 序列模式挖掘:Web访问模式帮助电商优化网站 97
6.3.1 我们为什么需要序列模式挖掘 97
6.3.2 Web访问模式与优化网站 98
6.3.3 序列模式挖掘小结 101
6.4 快速聚类:大数据捧火《纸牌屋》 102
6.4.1 大数据助Netfilx赌赢《纸牌屋》 103
6.4.2 透视《纸牌屋》背后的大数据算法 104
6.4.3 快速聚类小结 107
6.5 层次聚类:人人网好友推荐的奥秘 108
6.5.1 无处不在的好友推荐 108
6.5.2 朴素的人人网好友推荐算法 109
6.5.3 层次聚类与好友推荐小结 112
6.6 关联分析与聚类分析综述:加州极客的聚类分析把妹法 113
6.6.1 使用大数据寻找另一半 113
6.6.2 分成七类的潜在女朋友 115
6.6.3 关联分析与聚类分析小结 118
第七章 决策树与模式识别 119
7.1 C4.5 算法:电信客户流失预测 120
7.1.1 电信客户的流失与预测 120
7.1.2 使用信息熵建立决策树模型 121
7.1.3 为一个决策树剪枝并解释其规则 123
7.1.4 决策树小结 125
7.2 RBF神经网络:“房价网”的二手房价格评估 126
7.2.1 二手房价格评估的局限性 127
7.2.2 RBF神经网络的构建与解释 127
7.2.3 RBF神经网络小结 131
7.3 贝叶斯分析:神奇的谷歌智能翻译 132
7.3.1 世界第一的谷歌翻译 133
7.3.2 贝叶斯分析和智能翻译应用 134
7.3.3 贝叶斯分析小结 137
7.4 支持向量机:应用广泛的手写识别与语音识别 138
7.4.1 从阿里巴巴说起的模式识别 138
7.4.2 解决了高维诅咒的支持向量机 139
7.4.3 支持向量机小结 142
7.5 判别分析:肯德基通过客户分类大幅提高营业额 144
7.5.1 难以复制的肯德基APP营销模式 144
7.5.2 用于分类的线性判别分析 145
7.5.3 判别分析小结 149
7.6 模式识别综述:日趋成熟的信用评分模型 150
7.6.1 美国为限制信用评分模型立法 150
7.6.2 用多种算法实现信用评分模型 151
7.6.3 模式识别小结 154
第八章 更多的数据挖掘算法 157
8.1 核密度估计法:警务大数据预测犯罪 158
8.1.1 《少数派报告》的现实版 158
8.1.2 核密度估计法和圣克鲁兹市的犯罪地图 159
8.1.3 核密度估计法小结 162
8.2 Flu Trends:谷歌流感趋势算法帮助控制疫情 164
8.2.1 谷歌流感趋势算法的成与败 164
8.2.2 谷歌流感趋势算法与流感关联词 165
8.2.3 以F1u Trends为代表的预测算法小结 169
8.3 Aprori算法:透视美国国会投票模式 170
8.3.1 以立法者自居的美国国会议员 170
8.3.2 Apriori算法和关联分析 171
8.3.3 国会投票模式小结 175
8.4 SVD简化数据:IBM软件自动生成新菜谱 176
8.4.1 IBM推出可生成无限食谱的APP 176
8.4.2 SVD简化数据与综合计算 177
8.4.3 创新菜谱软件小结 180
8.5 大数据预测算法盘点:百度预测世界杯成功率81.8 % 181
8.5.1 群英荟萃的绿茵场 182
8.5.2 大数据预测算法模型大盘点 183
8.5.3 大数据预测算法小结 186
8.6 网络理论分析:西班牙球队的控球哲学 187
8.6.1 独树一帜的西班牙球队控球哲学 187
8.6.2 以网络理论分析为基础的聚类分析 188
8.6.3 网络理论分析小结 192