《中国科协新一代信息技术系列丛书 大数据导论》PDF下载

  • 购买积分:12 如何计算积分?
  • 作  者:张尧学主编
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2018
  • ISBN:9787111607670
  • 页数:303 页
图书介绍:本书重点阐述大数据的基本原理、技术、平台和不同领域的应用案例。全书共分13章,第1章为绪论;第2~7章为技术章节,介绍了数据采集与治理、数据管理、数据分析、数据可视化、数据安全与隐私保护和大数据处理平台;第8~11章为大数据在不同领域的应用案例,包括社会网络大数据、城市大数据、工业大数据和教育大数据;第12、13章为数据开放与共享和大数据的法律政策规范。

基础篇 3

第1章 绪论 3

1.1概述 3

1.1.1数据 4

1.1.2数据中蕴含的价值 6

1.1.3获取数据中蕴含的价值 8

1.2大数据的内涵和外延 9

1.2.1大数据时代的驱动力 9

1.2.2大数据的概念和特征 10

1.2.3大数据带来的思维模式改变 12

1.2.4大数据的作用和意义 13

1.3大数据的技术挑战和科学意义 15

1.3.1数据处理的一般过程 16

1.3.2大数据计算面临的挑战 17

1.3.3大数据计算的特点 18

1.3.4大数据计算平台 19

1.3.5大数据与云计算、人工智能的关系 20

1.4数据科学 22

1.4.1数据科学的提出 23

1.4.2数据科学的范畴 23

1.4.3数据科学对学科发展的影响 24

习题 25

参考文献及扩展阅读资料 26

技术篇 29

第2章 数据采集与治理 29

2.1概述 30

2.2大数据的来源与多源数据的采集方式 30

2.2.1大数据的来源 30

2.2.2多源数据的采集 31

2.2.3数据离散化 33

2.3数据集成和跨界应用的数据集成方法 34

2.3.1数据集成的定义与形式 34

2.3.2传统数据集成 35

2.3.3跨界数据集成 38

2.4数据的预处理 40

2.4.1数据变换 40

2.4.2数据质量的检验与提升 41

习题 44

参考文献及扩展阅读资料 44

第3章 数据管理 46

3.1概述 46

3.2关系数据库 47

3.2.1关系数据模型 48

3.2.2结构化查询语言 51

3.2.3数据库事务 52

3.2.4关系数据库管理系统 53

3.3分布式文件系统 54

3.3.1Hadoop 55

3.3.2Ceph 57

3.3.3GlusterFS 59

3.3.4分布式文件系统对比 60

3.4新型数据管理与查询系统 61

3.4.1NoSQL数据库 61

3.4.2SQL on Hadoop系统 65

习题 68

参考文献及扩展阅读资料 68

第4章 数据分析 69

4.1概述 69

4.2统计数据分析 71

4.2.1数据描述性分析 71

4.2.2回归分析 74

4.3基于机器学习的数据分析 76

4.3.1非监督学习方法 77

4.3.2监督学习方法 77

4.4图的数据分析 84

4.4.1图的基本概念 85

4.4.2中心性和相似性分析 86

4.4.3社交网络上的算法 89

4.5自然语言中的数据分析 92

4.5.1词表示分析 92

4.5.2语言模型 94

4.5.3话题模型 95

习题 96

参考文献及扩展阅读资料 96

第5章 数据可视化 98

5.1概述 98

5.2数据可视化主要技术 101

5.2.1高维数据可视化 102

5.2.2网络数据可视化 106

5.2.3层次结构数据可视化 109

5.2.4时空数据可视化 112

5.2.5文本数据可视化 115

5.3高可扩展可视化技术 117

5.3.1科学可视化中的高可扩展性 117

5.3.2支持数据高效的存储和检索的可视化 121

5.3.3支持可扩展可视化的交互手段 123

5.4大数据可视化与可视分析案例 125

5.4.1VAST Challenge 2017的可视分析案例 125

5.4.2车辆轨迹数据的可视分析案例 128

5.5可视化工具和软件 131

5.5.1高维数据可视化工具 131

5.5.2文本可视化工具 132

5.5.3网络可视化工具 132

5.5.4可视化编程工具 132

习题 132

参考文献及扩展阅读资料 132

第6章 数据安全与隐私保护 135

6.1概述 135

6.1.1数据安全与传统信息安全的共异点 136

6.1.2数据采集及传输中的安全与隐私 136

6.1.3数据存储的安全与隐私 138

6.1.4数据分析挖掘及处理的安全与隐私 138

6.1.5数据交互、共享与服务的安全与隐私 139

6.2数据安全及隐私保护支撑技术 140

6.2.1密码学基础及关键技术 140

6.2.2公钥基础设施 146

6.2.3授权管理基础设施 147

6.2.4PKI与PMI协同工作原理 148

6.2.5秘密分割与共享管理技术 149

6.3数据脱敏技术与实践 150

6.3.1数据交互安全与脱敏技术 150

6.3.2静态数据脱敏技术 150

6.3.3动态数据脱敏技术 150

6.3.4数据脱敏实例 151

6.4数据生命周期安全的防护及管理体系 151

6.4.1数据安全防护体系 151

6.4.2数据安全标准 153

6.4.3数据生命周期安全实施方案与数据安全管理 154

习题 155

参考文献及扩展阅读资料 155

第7章 大数据处理平台 157

7.1概述 157

7.2大数据处理平台架构 158

7.2.1技术架构 158

7.2.2开源平台 159

7.3批量大数据计算 161

7.3.1基本概念 161

7.3.2典型批量计算系统 162

7.3.3实例:微博用户群体年度热词统计 164

7.4流式大数据计算 166

7.4.1基本概念 166

7.4.2典型流式计算系统 168

7.4.3实例:微博用户群体实时热门话题分析 169

7.5大规模图数据计算 170

7.5.1基本概念 170

7.5.2典型图计算系统 172

7.5.3实例:微博用户影响力排名 174

习题 175

参考文献及扩展阅读资料 176

应用篇 179

第8章 社会网络大数据 179

8.1概述 179

8.2社会网络大数据面临的挑战 181

8.3社会网络中的用户影响力 182

8.3.1影响力检测实验 183

8.3.2影响力传播模型 185

8.3.3影响力度量算法 186

8.3.4社会影响力应用 186

8.4在线社会媒体中信息传播的建模与预测 187

8.4.1网络信息传播模型 187

8.4.2传播网络推断 188

8.4.3影响力最大化 188

8.4.4信息传播预测 189

习题 192

参考文献及扩展阅读资料 192

第9章 城市大数据 194

9.1概述 194

9.1.1城市数据的分类 195

9.1.2城市数据的特点 195

9.2智慧城市 197

9.2.1智慧城市的概念 197

9.2.2智慧城市的发展现状 198

9.2.3智慧城市的未来趋势 199

9.3智慧城市的技术体系框架 200

9.3.1智慧城市的技术框架 200

9.3.2以数据为中心的智慧城市特点 201

9.3.3智慧城市中的典型应用与服务 203

9.4城市大数据应用案例 205

9.4.1交通大数据的来源与种类 206

9.4.2交通大数据的分析与处理 206

9.4.3交通大数据的应用成果 207

9.5城市大数据未来展望 208

习题 209

参考文献及扩展阅读资料 210

第10章 工业大数据 211

10.1概述 211

10.1.1工业大数据的内涵 212

10.1.2工业大数据的特点 213

10.2工业大数据典型应用场景 218

10.2.1现有业务优化 218

10.2.2促进企业升级转型 219

10.3工业大数据分析技术 220

10.3.1工业大数据分析工作准备 221

10.3.2工业大数据分析工作实施 222

10.3.3工业大数据分析关键技术 225

10.4工业大数据分析案例 226

10.4.1大唐集团工业大数据应用实践 226

10.4.2中联重科工业大数据应用实践 229

习题 233

参考文献及扩展阅读资料 233

第11章 教育大数据 234

11.1概述 234

11.2教育大数据的采集与应用场景 235

11.2.1信息化校园 236

11.2.2智能辅导系统和在线题库 238

11.2.3大规模开放式在线课程 239

11.3认知诊断分析 241

11.3.1认知诊断任务描述 242

11.3.2经典认知诊断方法 242

11.3.3基于大数据的协同认知诊断 244

11.4知识跟踪分析 245

11.4.1知识跟踪任务描述 246

11.4.2经典知识跟踪方法 246

11.4.3联合知识跟踪 247

11.5习题资源分析与挖掘 249

11.5.1相似习题判定任务描述 249

11.5.2相似习题判定技术 249

11.5.3其他习题分析与挖掘应用 250

11.6MOOC平台活跃度预测 251

11.6.1活跃度预测任务描述 251

11.6.2活跃度预测分析方法 251

11.7教育大数据应用案例 252

11.7.1基于大数据分析的学生“隐形补助”体系 252

11.7.2基于大数据技术的个性化学习 255

习题 258

参考文献及扩展阅读资料 258

数据管理篇 263

第12章 数据开放与共享 263

12.1概述 263

12.1.1数据开放与共享的概念 263

12.1.2数据开放与共享的发展历程 264

12.2数据开放与共享的原则与政策 266

12.2.1数据开放与共享原则 266

12.2.2国外数据开放与共享政策 266

12.2.3中国数据开放与共享政策 269

12.2.4数据开放与共享实施指南 270

12.3数据开放与共享分类 270

12.3.1政府数据开放与共享 271

12.3.2公共财政资助产生的科学数据开放与共享 271

12.3.3企业数据开放与共享 272

12.3.4个人数据开放与共享 272

12.4数据开放与共享平台 273

12.4.1数据开放与共享综合平台 273

12.4.2数据开放与共享领域平台 275

12.4.3数据开放与共享平台的基本功能 279

12.4.4数据开放与共享平台的产权保护 281

习题 282

参考文献及扩展阅读资料 282

第13章 大数据的法律政策规范 284

13.1大数据政策法规指引 284

13.1.1大数据政策法规发展过程 284

13.1.2中国的数据保护监管机构 286

13.2数据主权与数据权利 287

13.2.1数据主权 288

13.2.2数据权利 288

13.2.3数据权利主体和其他利益相关主体 288

13.3个人数据立法保护 289

13.3.1国外个人数据保护制度 289

13.3.2中国个人数据保护制度 292

13.4数据跨境流动监管法律机制 295

13.4.1国外数据跨境及数据本地化立法 296

13.4.2中国数据跨境流动法律制度 298

13.4.3数据跨境流动法律制度设计 299

13.5大数据伦理 301

习题 302

参考文献及扩展阅读资料 302