第一部分 引论 3
第1章 引论 3
1.1 序言 3
1.2 数据科学简述 3
1.2.1 数据科学的定义 3
1.2.2 数据科学的由来 4
1.2.3 数据科学的研究范畴 5
1.2.4 数据科学的学习意义 6
1.3 本书结构 6
第二部分 大数据及其产生根源 11
第2章 数据 11
2.1 数据的定义 11
2.1.1 数据的定义 11
2.1.2 其他相关概念 11
2.2 数据简史 12
第3章 大数据的概念和特征 19
3.1 大数据的概念 19
3.2 大数据的4V特性 20
3.2.1 体量(Volume) 20
3.2.2 多样性(Variety) 22
3.2.3 价值/真实性(Value/Veracity) 23
3.2.4 速度(Velocity) 24
3.2.5 对4V特性的体会 24
第4章 大数据的产生根源 25
4.1 大数据的产生根源 25
4.1.1 大数据时代出现的技术基础 25
4.1.2 大数据时代出现的数据基础 25
4.2 大数据简史 26
4.3 大数据时代的挑战 28
4.3.1 数据规模 30
4.3.2 数据的多样性和异构性 31
4.3.3 数据的不可靠问题 31
4.3.4 数据的实时性要求 31
4.3.5 数据隐私问题 31
4.3.6 人机协作问题 31
4.3.7 数据的访问与共享 31
4.3.8 数据运用的合理性 32
4.3.9 小结 32
第三部分 大数据研究的重要性 35
第5章 大数据研究的现状 35
5.1 政府篇 35
5.1.1 联合国的大数据研究 35
5.1.2 美国的大数据研究 36
5.1.3 欧盟的大数据研究 37
5.2 企业篇 39
5.2.1 谷歌 39
5.2.2 IBM 39
5.2.3 百度 41
5.2.4 阿里巴巴 41
5.2.5 腾讯 42
第6章 关联分析 44
6.1 啤酒与尿布 44
6.1.1 案例详析 44
6.1.2 购物篮分析法 45
6.1.3 商品间相关性分析 47
6.1.4 外界因素的影响 51
6.1.5 思维启示 52
6.2 亚马逊的个性化推荐 54
6.2.1 案例详析 54
6.2.2 亚马逊的推荐方式 55
6.2.3 推荐算法 57
6.3 潘多拉音乐组计划 61
6.3.1 案例详析 61
6.3.2 标签的运用 64
6.4 塔吉特的大数据营销 67
6.4.1 案例详析 67
6.4.2 思维启示——数据应用已经渗入生活的方方面面 68
第7章 趋势预测 70
7.1 “搜索+比价” 70
7.1.1 Farecast案例详析 70
7.1.2 Decide案例详析 72
7.1.3 思维启示 75
7.2 Twitter与对冲基金 75
7.2.1 案例详析 75
7.2.2 思维启示:数据可以预测趋势与规律 77
7.3 疾病预测 77
7.3.1 谷歌流感趋势 77
7.3.2 其他案例 81
7.3.3 思维启示 81
7.4 电影票房预测 83
7.4.1 案例详析 83
7.4.2 工作模式 84
7.4.3 思维启示:简单的就是最好的 87
7.5 奥斯卡预测 88
7.5.1 案例详析 88
7.5.2 思维启示:大数据可以做预测 90
第8章 决策支持 92
8.1 《纸牌屋》 92
8.1.1 案例详析 92
8.1.2 大数据的运用方式 93
8.1.3 思维启示 93
8.2 美国总统大选 96
8.2.1 案例详析 96
8.2.2 大数据的运用方式 96
8.2.3 思维启示 99
第9章 模式创新 100
9.1 大数据与反恐 100
9.1.1 美国“棱镜”计划 100
9.1.2 加拿大的“棱镜门” 102
9.1.3 思维启示 103
9.2 利用大数据打击犯罪 105
9.2.1 “先知”系统 105
9.2.2 “犯罪数据分析和趋势预测系统” 106
9.3 大数据与破案 107
9.3.1 《源代码》 107
9.4 大数据的其他运用方式 108
9.4.1 大数据与纽约沙井盖维护 108
9.4.2 大数据帮助寻根问祖 109
第四部分 数据科学的研究方式 117
第10章 数据密集型研究方法 117
10.1 范式和范式的演化过程 117
10.1.1 范式的定义 117
10.1.2 范式的演变过程 118
10.2 第四范式兴起的社会根源 120
10.2.1 数据洪流的到来 120
10.2.2 科学界对海量数据的关注 121
10.2.3 关联数据运动 122
10.2.4 政府数据开放运动 123
10.3 对第四范式的分析 124
10.3.1 科学数据与科学研究的问题 124
10.3.2 解决方案 124
10.4 数据科学研究的一般流程 125
第11章 数据的获取和预处理 127
11.1 数据的获取 127
11.1.1 数据的类型 127
11.1.2 网络爬虫技术 129
11.2 数据预处理的目的 136
11.3 数据清洗 137
11.3.1 填补空缺值 137
11.3.2 平滑噪声数据 138
11.4 数据集成 142
11.4.1 多信息源的匹配 142
11.4.2 冗余数据的处理 143
11.5 数据变换 145
11.5.1 数据规范化 145
11.6 数据归约 146
11.6.1 数据立方体聚集 147
11.6.2 维归约 148
11.6.3 特征值归约 150
第12章 数据的存储与管理 151
12.1 数据的存储 151
12.1.1 数据存储的发展 151
12.1.2 大数据对存储带来的挑战 155
12.1.3 云存储方式 156
12.2 数据的管理 157
12.2.1 数据管理的发展阶段 157
12.2.2 大数据时代数据管理的特点 160
12.2.3 非关系型数据 161
12.2.4 开源的NoSQL数据库软件 161
第13章 数据的处理 165
13.1 Hadoop 165
13.1.1 Hadoop的起源 165
13.1.2 优点 165
13.1.3 架构 166
13.1.4 MapReduce流程 167
13.2 Spark 168
13.2.1 概述 168
13.2.2 Spark的特点 169
13.2.3 编程模型 169
13.2.4 运行和调度 170
第14章 数据的可视化 173
14.1 概述 173
14.2 可视化工具 174
14.2.1 Excel 174
14.2.2 Raphael 174
14.2.3 Visual.ly 175
14.2.4 Crossfilter 175
14.2.5 Polymaps 175
14.2.6 Kartograph 176
14.2.7 Processing 176
14.2.8 R 177
14.2.9 Weka 177
14.2.10 Gephi 178
第五部分 数据与未来 183
第15章 大数据与智慧城市 183
15.1 概述 183
15.1.1 智慧城市的定义 183
15.1.2 智慧城市产生背景 184
15.2 大数据与智慧城市 186
15.2.1 智慧城市的基本特征与层次构成 186
15.2.2 智慧城市建设中所应用的数据科学技术 188
15.3 智慧城市案例 190
15.3.1 韩国 191
15.3.2 日本 192
15.3.3 美国 192
15.3.4 爱沙尼亚 196
15.3.5 荷兰 198
15.3.6 英国 199
15.3.7 巴西 200
第16章 大数据与智慧医疗 205
16.1 概述 205
16.2 智慧医疗的范畴 205
16.2.1 临床操作 205
16.2.2 付款/定价 207
16.2.3 研发 208
16.2.4 新的商业模式 209
16.2.5 公众健康 209
16.2.6 给我们的思维模式启示 210
16.3 大数据与智慧医疗 210
16.3.1 大数据服务心脏病患者 210
16.3.2 “魔毯”病人的监控 211
16.3.3 大数据监测脑外伤病人恢复 211
16.3.4 大数据帮助实现个性化用药和诊断 212
16.4 可穿戴技术 213
16.4.1 可穿戴技术的概念 213
16.4.2 可穿戴设备简析 214
16.4.3 可穿戴设备与智慧医疗 218
16.4.4 思维启示——可穿戴设备的缺陷 218
第17章 大数据与未来生活 221
17.1 数据科学家 221
17.1.1 数据科学家的定义 221
17.1.2 数据科学家的从业前景 221
17.2 对未来数据科学发展的探讨 224
17.2.1 数据不是万能 224
17.2.2 提防进入数据误区 225