《数据科学导论》PDF下载

  • 购买积分:10 如何计算积分?
  • 作  者:杨旭,汤海京,丁刚毅编著
  • 出 版 社:北京:北京理工大学出版社
  • 出版年份:2017
  • ISBN:9787568231152
  • 页数:226 页
图书介绍:本书系统性地讲述了与数据科学相关的各方面知识,着重培养数据工程师所需要的技能与思维。本书将从与数据科学相关的概念出发,通过丰富、翔实的案例,从各方面展示数据科学的运用方式,并且在其中穿插数据科学研究方式下新的思维模式的讲解,让读者有一个更为直观的认识,也可以从中感受到运用数据科学处理各个领域问题的方法和流程。本书还从工程概论的流程角度来讲述数据科学的工程体系架构,并展望数据科学的未来发展。同时本书特意加强了对于数据预处理的理论和技术的讲解。本书可作为计算机相关专业本科生、研究生教材,也可供相关专业技术人员阅读参考。

第一部分 引论 3

第1章 引论 3

1.1 序言 3

1.2 数据科学简述 3

1.2.1 数据科学的定义 3

1.2.2 数据科学的由来 4

1.2.3 数据科学的研究范畴 5

1.2.4 数据科学的学习意义 6

1.3 本书结构 6

第二部分 大数据及其产生根源 11

第2章 数据 11

2.1 数据的定义 11

2.1.1 数据的定义 11

2.1.2 其他相关概念 11

2.2 数据简史 12

第3章 大数据的概念和特征 19

3.1 大数据的概念 19

3.2 大数据的4V特性 20

3.2.1 体量(Volume) 20

3.2.2 多样性(Variety) 22

3.2.3 价值/真实性(Value/Veracity) 23

3.2.4 速度(Velocity) 24

3.2.5 对4V特性的体会 24

第4章 大数据的产生根源 25

4.1 大数据的产生根源 25

4.1.1 大数据时代出现的技术基础 25

4.1.2 大数据时代出现的数据基础 25

4.2 大数据简史 26

4.3 大数据时代的挑战 28

4.3.1 数据规模 30

4.3.2 数据的多样性和异构性 31

4.3.3 数据的不可靠问题 31

4.3.4 数据的实时性要求 31

4.3.5 数据隐私问题 31

4.3.6 人机协作问题 31

4.3.7 数据的访问与共享 31

4.3.8 数据运用的合理性 32

4.3.9 小结 32

第三部分 大数据研究的重要性 35

第5章 大数据研究的现状 35

5.1 政府篇 35

5.1.1 联合国的大数据研究 35

5.1.2 美国的大数据研究 36

5.1.3 欧盟的大数据研究 37

5.2 企业篇 39

5.2.1 谷歌 39

5.2.2 IBM 39

5.2.3 百度 41

5.2.4 阿里巴巴 41

5.2.5 腾讯 42

第6章 关联分析 44

6.1 啤酒与尿布 44

6.1.1 案例详析 44

6.1.2 购物篮分析法 45

6.1.3 商品间相关性分析 47

6.1.4 外界因素的影响 51

6.1.5 思维启示 52

6.2 亚马逊的个性化推荐 54

6.2.1 案例详析 54

6.2.2 亚马逊的推荐方式 55

6.2.3 推荐算法 57

6.3 潘多拉音乐组计划 61

6.3.1 案例详析 61

6.3.2 标签的运用 64

6.4 塔吉特的大数据营销 67

6.4.1 案例详析 67

6.4.2 思维启示——数据应用已经渗入生活的方方面面 68

第7章 趋势预测 70

7.1 “搜索+比价” 70

7.1.1 Farecast案例详析 70

7.1.2 Decide案例详析 72

7.1.3 思维启示 75

7.2 Twitter与对冲基金 75

7.2.1 案例详析 75

7.2.2 思维启示:数据可以预测趋势与规律 77

7.3 疾病预测 77

7.3.1 谷歌流感趋势 77

7.3.2 其他案例 81

7.3.3 思维启示 81

7.4 电影票房预测 83

7.4.1 案例详析 83

7.4.2 工作模式 84

7.4.3 思维启示:简单的就是最好的 87

7.5 奥斯卡预测 88

7.5.1 案例详析 88

7.5.2 思维启示:大数据可以做预测 90

第8章 决策支持 92

8.1 《纸牌屋》 92

8.1.1 案例详析 92

8.1.2 大数据的运用方式 93

8.1.3 思维启示 93

8.2 美国总统大选 96

8.2.1 案例详析 96

8.2.2 大数据的运用方式 96

8.2.3 思维启示 99

第9章 模式创新 100

9.1 大数据与反恐 100

9.1.1 美国“棱镜”计划 100

9.1.2 加拿大的“棱镜门” 102

9.1.3 思维启示 103

9.2 利用大数据打击犯罪 105

9.2.1 “先知”系统 105

9.2.2 “犯罪数据分析和趋势预测系统” 106

9.3 大数据与破案 107

9.3.1 《源代码》 107

9.4 大数据的其他运用方式 108

9.4.1 大数据与纽约沙井盖维护 108

9.4.2 大数据帮助寻根问祖 109

第四部分 数据科学的研究方式 117

第10章 数据密集型研究方法 117

10.1 范式和范式的演化过程 117

10.1.1 范式的定义 117

10.1.2 范式的演变过程 118

10.2 第四范式兴起的社会根源 120

10.2.1 数据洪流的到来 120

10.2.2 科学界对海量数据的关注 121

10.2.3 关联数据运动 122

10.2.4 政府数据开放运动 123

10.3 对第四范式的分析 124

10.3.1 科学数据与科学研究的问题 124

10.3.2 解决方案 124

10.4 数据科学研究的一般流程 125

第11章 数据的获取和预处理 127

11.1 数据的获取 127

11.1.1 数据的类型 127

11.1.2 网络爬虫技术 129

11.2 数据预处理的目的 136

11.3 数据清洗 137

11.3.1 填补空缺值 137

11.3.2 平滑噪声数据 138

11.4 数据集成 142

11.4.1 多信息源的匹配 142

11.4.2 冗余数据的处理 143

11.5 数据变换 145

11.5.1 数据规范化 145

11.6 数据归约 146

11.6.1 数据立方体聚集 147

11.6.2 维归约 148

11.6.3 特征值归约 150

第12章 数据的存储与管理 151

12.1 数据的存储 151

12.1.1 数据存储的发展 151

12.1.2 大数据对存储带来的挑战 155

12.1.3 云存储方式 156

12.2 数据的管理 157

12.2.1 数据管理的发展阶段 157

12.2.2 大数据时代数据管理的特点 160

12.2.3 非关系型数据 161

12.2.4 开源的NoSQL数据库软件 161

第13章 数据的处理 165

13.1 Hadoop 165

13.1.1 Hadoop的起源 165

13.1.2 优点 165

13.1.3 架构 166

13.1.4 MapReduce流程 167

13.2 Spark 168

13.2.1 概述 168

13.2.2 Spark的特点 169

13.2.3 编程模型 169

13.2.4 运行和调度 170

第14章 数据的可视化 173

14.1 概述 173

14.2 可视化工具 174

14.2.1 Excel 174

14.2.2 Raphael 174

14.2.3 Visual.ly 175

14.2.4 Crossfilter 175

14.2.5 Polymaps 175

14.2.6 Kartograph 176

14.2.7 Processing 176

14.2.8 R 177

14.2.9 Weka 177

14.2.10 Gephi 178

第五部分 数据与未来 183

第15章 大数据与智慧城市 183

15.1 概述 183

15.1.1 智慧城市的定义 183

15.1.2 智慧城市产生背景 184

15.2 大数据与智慧城市 186

15.2.1 智慧城市的基本特征与层次构成 186

15.2.2 智慧城市建设中所应用的数据科学技术 188

15.3 智慧城市案例 190

15.3.1 韩国 191

15.3.2 日本 192

15.3.3 美国 192

15.3.4 爱沙尼亚 196

15.3.5 荷兰 198

15.3.6 英国 199

15.3.7 巴西 200

第16章 大数据与智慧医疗 205

16.1 概述 205

16.2 智慧医疗的范畴 205

16.2.1 临床操作 205

16.2.2 付款/定价 207

16.2.3 研发 208

16.2.4 新的商业模式 209

16.2.5 公众健康 209

16.2.6 给我们的思维模式启示 210

16.3 大数据与智慧医疗 210

16.3.1 大数据服务心脏病患者 210

16.3.2 “魔毯”病人的监控 211

16.3.3 大数据监测脑外伤病人恢复 211

16.3.4 大数据帮助实现个性化用药和诊断 212

16.4 可穿戴技术 213

16.4.1 可穿戴技术的概念 213

16.4.2 可穿戴设备简析 214

16.4.3 可穿戴设备与智慧医疗 218

16.4.4 思维启示——可穿戴设备的缺陷 218

第17章 大数据与未来生活 221

17.1 数据科学家 221

17.1.1 数据科学家的定义 221

17.1.2 数据科学家的从业前景 221

17.2 对未来数据科学发展的探讨 224

17.2.1 数据不是万能 224

17.2.2 提防进入数据误区 225