第1章 引论 1
1.1序言 1
1.2数据 1
1.2.1数据的概念 1
1.2.2数据的发展史 2
1.2.3数据、信息与知识 6
1.3大数据 7
1.3.1大数据时代的来临 7
1.3.2大数据的概念 8
1.3.3大数据的特征 9
1.3.4大数据对社会所产生的影响 10
1.3.5迎接大数据时代的挑战 13
1.4数据科学 15
1.5本书结构 16
第2章 数据科学在商业金融领域的应用 17
2.1啤酒与尿布 17
2.1.1案例详析 17
2.1.2数据挖掘技术 19
2.1.3购物篮分析法 20
2.1.4对我们的思维模式启示 21
2.2比价网站的成功 23
2.2.1 Farecast案例详析 23
2.2.2 Decide案例详析 26
2.2.3对我们的思维模式启示 27
2.3基于大数据的个性化推荐系统 29
2.3.1基于亚马逊云的个性化推荐系统 29
2.3.2潘多拉(Pandora)——基于基因的推荐系统 29
2.4 Target的大数据营销 33
2.4.1案例详析 33
2.4.2给我们的思维模式启示 34
2.5社交网络数据之于对冲基金 35
第3章 数据科学在生物医学领域的应用 38
3.1流行病预测 38
3.1.1谷歌的流感预测 38
3.1.2利用微博来预测流感 40
3.1.3给我们的思维模式启示——大数据时代的科学伦理问题 41
3.2大数据与智慧医疗 42
3.2.1临床操作 43
3.2.2付款/定价 44
3.2.3研发 45
3.2.4新的商业模式 46
3.2.5公众健康 47
3.2.6给我们的思维模式启示 47
3.3疾病监控 48
3.3.1大数据服务心脏病患者 48
3.3.2“魔毯”病人的监控 49
3.3.3大数据监测脑外伤病人恢复 49
3.4可穿戴技术、大数据与智慧医疗 50
3.4.1 什么是可穿戴技术 50
3.4.2可穿戴设备简析 51
3.4.3可穿戴设备与智慧医疗 55
3.4.4给我们的思维模式启示——可穿戴设备的缺陷 56
第4章 数据科学在智慧城市领域的应用 59
4.1概述 59
4.1.1什么是智慧城市 59
4.1.2产生背景 61
4.1.3 IT企业相继介入智慧城市领域 62
4.1.4国际实践 63
4.2韩国的松岛新城 64
4.3美国的智慧城市建设 65
4.3.1哥伦布市 65
4.3.2其他智慧城市建设的举措 68
4.4英国的智慧城市建设 69
4.5日本的智慧城市建设 70
4.6北欧智慧城市——爱沙尼亚 71
4.7荷兰阿姆斯特丹的智慧城市计划 72
4.8巴西里约热内卢的智慧城市建设 74
4.9智慧城市建设中所应用的数据科学技术 78
4.9.1数据信息的收集:利用传感网络收集数据信息 78
4.9.2数据信息的整合:不同数据信息的整合和统一管理 78
4.9.3数据信息分析与应用:大容量、实时性分析技术 79
第5章 数据科学在影视娱乐领域的应用 81
5.1大数据捧红《纸牌屋》 81
5.1.1案例详析 81
5.1.2大数据如何捧红《纸牌屋》 82
5.1.3给我们的思维模式启示 83
5.2谷歌预测电影票房 86
5.2.1案例详析 86
5.2.2谷歌的预测机理 87
5.2.3给我们的思维模式启示 90
5.3利用数据预测奥斯卡奖项 92
第6章 数据科学在其他领域的应用实例 96
6.1大数据帮助奥巴马赢得大选 96
6.1.1案例详析 96
6.1.2给我们的思维模式启示 100
6.2棱镜门 101
6.2.1案例详析 101
6.2.2“棱镜”计划 105
6.2.3加拿大的“棱镜门” 107
6.2.4给我们的思维模式启示 108
6.3大数据帮助寻根问祖 111
6.3.1案例分析 111
6.3.2运作机理 113
6.4大数据与社会治安 115
第7章 数据科学工程概论 116
7.1科学研究的第四范式——数据密集型研究方法 116
7.1.1范式和范式的演变 116
7.1.2科学研究的第四范式 117
7.2数据密集型科学研究兴起的社会环境 118
7.2.1数据洪流的到来 118
7.2.2科学界对海量数据的关注 118
7.2.3关联数据运动 119
7.2.4政府数据开放运动 120
7.3对数据密集型科学研究范式的分析 121
7.3.1科学数据和科学研究的问题 122
7.3.2相应的解决方案 122
7.4数据的收集 123
7.4.1客观世界(Matter)中的数据 123
7.4.2主观世界(Mind)中的数据 124
7.4.3细谈数据 124
7.5数据的存储 125
7.6数据的管理 126
7.6.1 NoSQL数据库简介 126
7.6.2 NoSQL数据库的特点 128
7.6.3开源的NoSQL数据库软件 129
7.7数据的处理 131
7.7.1 Hadoop的起源 132
7.7.2优点 132
7.7.3架构 133
7.7.4 MapReduce流程 134
7.8数据的可视化 135
7.8.1 Excel 135
7.8.2 Raphael 136
7.8.3 Visual.ly 136
7.8.4 Crossfilter 137
7.8.5 PolyMaps 137
7.8.6 Kartograph 137
7.8.7 Processing 138
7.8.8 R 138
7.8.9Weka 139
7.8.10 Gephi 140
第8章 数据科学的未来展望 141
8.1从业前景广阔 141
8.2对未来数据科学发展的探讨 144
8.2.1提防进入数据误区 144
8.2.2数据不是万能的 144