大数据技术原理与应用 概念 存储 处理 分析与应用PDF电子书下载
- 电子书积分:10 积分如何计算积分?
- 作 者:林子雨编著
- 出 版 社:北京:人民邮电出版社
- 出版年份:2015
- ISBN:9787115392879
- 页数:250 页
第一篇 大数据基础 2
第1章 大数据概述 2
1.1 大数据时代 2
1.1.1 第三次信息化浪潮 2
1.1.2 信息科技为大数据时代提供技术支撑 3
1.1.3 数据产生方式的变革促成大数据时代的来临 5
1.1.4 大数据的发展历程 6
1.2 大数据的概念 7
1.2.1 数据量大 7
1.2.2 数据类型繁多 8
1.2.3 处理速度快 8
1.2.4 价值密度低 9
1.3 大数据的影响 9
1.3.1 大数据对科学研究的影响 9
1.3.2 大数据对思维方式的影响 10
1.3.3 大数据对社会发展的影响 11
1.3.4 大数据对就业市场的影响 12
1.3.5 大数据对人才培养的影响 12
1.4 大数据的应用 13
1.5 大数据关键技术 14
1.6 大数据计算模式 14
1.6.1 批处理计算 15
1.6.2 流计算 15
1.6.3 图计算 15
1.6.4 查询分析计算 16
1.7 大数据产业 16
1.8 大数据与云计算、物联网 17
1.8.1 云计算 17
1.8.2 物联网 20
1.8.3 大数据与云计算、物联网的关系 24
1.9 本章小结 25
1.10 习题 25
第2章 大数据处理架构Hadoop 26
2.1 概述 26
2.1.1 Hadoop简介 26
2.1.2 Hadoop的发展简史 26
2.1.3 Hadoop的特性 27
2.1.4 Hadoop的应用现状 27
2.2 Hadoop的项目结构 28
2.2.1 Common 28
2.2.2 Avro 29
2.2.3 HDFS 29
2.2.4 HBase 29
2.2.5 MapReduce 29
2.2.6 Zookeeper 30
2.2.7 Hive 30
2.2.8 Pig 30
2.2.9 Sqoop 30
2.2.10 Chukwa 30
2.3 Hadoop的安装与使用 31
2.3.1 创建Hadoop用户 31
2.3.2 Java的安装 31
2.3.3 SSH登录权限设置 32
2.3.4 安装单机Hadoop 32
2.3.5 Hadoop伪分布式安装 33
2.4 本章小结 35
2.5 习题 36
第二篇 大数据存储 40
第3章 Hadoop分布式文件系统 40
3.1 分布式文件系统 40
3.1.1 计算机集群结构 40
3.1.2 分布式文件系统的结构 41
3.1.3 分布式文件系统的设计需求 42
3.2 HDFS简介 42
3.3 HDFS的相关概念 43
3.3.1 块 43
3.3.2 名称节点和数据节点 44
3.4 HDFS体系结构 45
3.4.1 概述 45
3.4.2 HDFS命名空间管理 46
3.4.3 通信协议 46
3.4.4 客户端 46
3.4.5 HDFS体系结构的局限性 46
3.5 HDFS的存储原理 46
3.5.1 冗余数据的保存 46
3.5.2 数据存取策略 47
3.5.3 数据错误与恢复 48
3.6 HDFS的数据读写过程 49
3.6.1 读数据的过程 49
3.6.2 写数据的过程 50
3.7 HDFS编程实践 51
3.7.1 HDFS常用命令 51
3.7.2 HDFS的Web界面 52
3.7.3 HDFS常用Java API及应用实例 53
3.8 本章小结 56
3.9 习题 57
第4章 分布式数据库HBase 59
4.1 概述 59
4.1.1 从BigTable说起 59
4.1.2 HBase简介 59
4.1.3 HBase与传统关系数据库的对比分析 60
4.2 HBase访问接口 61
4.3 HBase数据模型 62
4.3.1 数据模型概述 62
4.3.2 数据模型的相关概念 62
4.3.3 数据坐标 64
4.3.4 概念视图 64
4.3.5 物理视图 65
4.3.6 面向列的存储 65
4.4 HBase的实现原理 67
4.4.1 HBase的功能组件 67
4.4.2 表和Region 68
4.4.3 Region的定位 69
4.5 HBase运行机制 70
4.5.1 HBase系统架构 70
4.5.2 Region服务器的工作原理 72
4.5.3 Store的工作原理 73
4.5.4 HLog的工作原理 73
4.6 HBase编程实践 74
4.6.1 HBase常用的Shell命令 74
4.6.2 HBase常用的Java API及应用实例 76
4.7 本章小结 86
4.8 习题 86
第5章 NoSQL数据库 90
5.1 NoSQL简介 90
5.2 NoSQL兴起的原因 91
5.2.1 关系数据库无法满足Web 2.0的需求 92
5.2.2 关系数据库的关键特性在Web 2.0时代成为“鸡肋” 92
5.3 NoSQL与关系数据库的比较 93
5.4 NoSQL的四大类型 95
5.4.1 键值数据库 96
5.4.2 列族数据库 96
5.4.3 文档数据库 97
5.4.4 图形数据库 97
5.5 NoSQL的三大基石 98
5.5.1 CAP 98
5.5.2 BASE 100
5.5.3 最终一致性 101
5.6 从NoSQL到NewSQL数据库 102
5.7 本章小结 104
5.8 习题 104
第6章 云数据库 105
6.1 云数据库概述 105
6.1.1 云计算是云数据库兴起的基础 105
6.1.2 云数据库的概念 106
6.1.3 云数据库的特性 107
6.1.4 云数据库是个性化数据存储需求的理想选择 108
6.1.5 云数据库与其他数据库的关系 109
6.2 云数据库产品 110
6.2.1 云数据库厂商概述 110
6.2.2 Amazon的云数据库产品 110
6.2.3 Google的云数据库产品 111
6.2.4 微软的云数据库产品 111
6.2.5 其他云数据库产品 112
6.3 云数据库系统架构 112
6.3.1 UMP系统概述 112
6.3.2 UMP系统架构 113
6.3.3 UMP系统功能 115
6.4 云数据库实践 118
6.4.1 阿里云RDS简介 118
6.4.2 RDS中的概念 118
6.4.3 购买和使用RDS数据库 119
6.4.4 将本地数据库迁移到云端RDS数据库 123
6.5 本章小结 124
6.6 习题 125
第三篇 大数据处理与分析 128
第7章 MapReduce 128
7.1 概述 128
7.1.1 分布式并行编程 128
7.1.2 MapReduce模型简介 129
7.1.3 Map和Reduce 函数 129
7.2 MapReduce的工作流程 130
7.2.1 工作流程概述 130
7.2.2 MapReduce的各个执行阶段 131
7.2.3 Shuffle过程详解 132
7.3 实例分析:WordCount 135
7.3.1 WordCount的程序任务 135
7.3.2 WordCount的设计思路 136
7.3.3 MapReduce的具体执行过程 136
7.3.4 一个WordCount执行过程的实例 137
7.4 MapReduce的具体应用 139
7.4.1 MapReduce在关系代数运算中的应用 139
7.4.2 分组与聚合运算 140
7.4.3 矩阵-向量乘法 140
7.4.4 矩阵乘法 141
7.5 MapReduce编程实践 141
7.5.1 任务要求 141
7.5.2 编写Map处理逻辑 142
7.5.3 编写Reduce处理逻辑 143
7.5.4 编写main方法 144
7.5.5 编译打包代码以及运行程序 144
7.6 本章小结 146
7.7 习题 147
第8章 流计算 151
8.1 流计算概述 151
8.1.1 静态数据和流数据 151
8.1.2 批量计算和实时计算 152
8.1.3 流计算的概念 153
8.1.4 流计算与Hadoop 153
8.1.5 流计算框架 154
8.2 流计算的处理流程 154
8.2.1 概述 154
8.2.2 数据实时采集 155
8.2.3 数据实时计算 155
8.2.4 实时查询服务 156
8.3 流计算的应用 156
8.3.1 应用场景1:实时分析 156
8.3.2 应用场景2:实时交通 157
8.4 开源流计算框架Storm 158
8.4.1 Storm简介 159
8.4.2 Storm的特点 159
8.4.3 Storm的设计思想 160
8.4.4 Storm的框架设计 161
8.4.5 Storm实例 162
8.4.6 哪些公司在使用Storm 165
8.5 本章小结 166
8.6 习题 166
第9章 图计算 168
9.1 图计算简介 168
9.1.1 传统图计算解决方案的不足之处 168
9.1.2 图计算通用软件 169
9.2 Pregel简介 169
9.3 Pregel图计算模型 170
9.3.1 有向图和顶点 170
9.3.2 顶点之间的消息传递 170
9.3.3 Pregel的计算过程 171
9.3.4 实例 171
9.4 Pregel的C++API 174
9.4.1 消息传递机制 174
9.4.2 Combiner 175
9.4.3 Aggregator 175
9.4.4 拓扑改变 176
9.4.5 输入和输出 176
9.5 Pregel的体系结构 176
9.5.1 Pregel的执行过程 177
9.5.2 容错性 178
9.5.3 Worker 179
9.5.4 Master 179
9.5.5 Aggregator 180
9.6 Pregel的应用实例 180
9.6.1 单源最短路径 180
9.6.2 二分匹配 181
9.7 Pregel和MapReduce实现PageRank算法的对比 182
9.7.1 PageRank算法 183
9.7.2 PageRank算法在Pregel中的实现 183
9.7.3 PageRank算法在MapReduce中的实现 184
9.7.4 PageRank算法在Pregel和MapReduce中实现的比较 186
9.8 本章小结 187
9.9 习题 187
第10章 数据可视化 189
10.1 可视化概述 189
10.1.1 什么是数据可视化 189
10.1.2 可视化的发展历程 189
10.1.3 可视化的重要作用 191
10.2 可视化工具 193
10.2.1 入门级工具 193
10.2.2 信息图表工具 194
10.2.3 地图工具 195
10.2.4 时间线工具 196
10.2.5 高级分析工具 196
10.3 可视化典型案例 197
10.3.1 全球黑客活动 197
10.3.2 互联网地图 197
10.3.3 编程语言之间的影响力关系图 198
10.3.4 百度迁徙 199
10.3.5 世界国家健康与财富之间的关系 199
10.3.6 3D可视化互联网地图APP 199
10.4 本章小结 201
10.5 习题 201
第四篇 大数据应用 204
第11章 大数据在互联网领域的应用 204
11.1 推荐系统概述 204
11.1.1 什么是推荐系统 204
11.1.2 长尾理论 205
11.1.3 推荐方法 205
11.1.4 推荐系统模型 206
11.1.5 推荐系统的应用 206
11.2 协同过滤 207
11.2.1 基于用户的协同过滤 207
11.2.2 基于物品的协同过滤 209
11.2.3 UserCF算法和ItemCF算法的对比 210
11.3 协同过滤实践 211
11.3.1 实践背景 211
11.3.2 数据处理 211
11.3.3 计算相似度矩阵 212
11.3.4 计算推荐结果 213
11.3.5 展示推荐结果 213
11.4 本章小结 214
11.5 习题 214
第12章 大数据在生物医学领域的应用 215
12.1 流行病预测 215
12.1.1 传统流行病预测机制的不足 215
12.1.2 基于大数据的流行病预测 216
12.1.3 基于大数据的流行病预测的重要作用 217
12.1.4 案例:百度疾病预测 217
12.2 智慧医疗 218
12.3 生物信息学 219
12.4 案例:基于大数据的综合健康服务平台 220
12.4.1 平台概述 220
12.4.2 平台业务架构 221
12.4.3 平台技术架构 222
12.4.4 平台关键技术 223
12.5 本章小结 224
12.6 习题 224
第13章 大数据的其他应用 225
13.1 大数据在物流领域中的应用 225
13.1.1 智能物流的概念 225
13.1.2 智能物流的作用 226
13.1.3 智能物流的应用 226
13.1.4 大数据是智能物流的关键 227
13.1.5 中国智能物流骨干网——菜鸟 227
13.2 大数据在城市管理中的应用 229
13.2.1 智能交通 230
13.2.2 环保监测 231
13.2.3 城市规划 232
13.2.4 安防领域 232
13.3 大数据在金融行业中的应用 233
13.3.1 高频交易 233
13.3.2 市场情绪分析 233
13.3.3 信贷风险分析 234
13.4 大数据在汽车行业中的应用 235
13.5 大数据在零售行业中的应用 236
13.5.1 发现关联购买行为 236
13.5.2 客户群体细分 236
13.5.3 供应链管理 237
13.6 大数据在餐饮行业中的应用 237
13.6.1 餐饮行业拥抱大数据 237
13.6.2 餐饮O2O 238
13.7 大数据在电信行业中的应用 239
13.8 大数据在能源行业中的应用 240
13.9 大数据在体育和娱乐领域中的应用 241
13.9.1 训练球队 241
13.9.2 投拍影视作品 242
13.9.3 预测比赛结果 243
13.10 大数据在安全领域中的应用 243
13.10.1 大数据与国家安全 243
13.10.2 应用大数据技术防御网络攻击 244
13.10.3 警察应用大数据工具预防犯罪 245
13.11 大数据在政府领域中的应用 246
13.12 大数据在日常生活中的应用 246
13.13 本章小结 247
13.14 习题 248
参考文献 249
- 《钒产业技术及应用》高峰,彭清静,华骏主编 2019
- 《现代水泥技术发展与应用论文集》天津水泥工业设计研究院有限公司编 2019
- 《英汉翻译理论的多维阐释及应用剖析》常瑞娟著 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《区块链DAPP开发入门、代码实现、场景应用》李万胜著 2019
- 《虚拟流域环境理论技术研究与应用》冶运涛蒋云钟梁犁丽曹引等编著 2019
- 《当代翻译美学的理论诠释与应用解读》宁建庚著 2019
- 《第一性原理方法及应用》李青坤著 2019
- 《计算机组成原理解题参考 第7版》张基温 2017
- 《高等院校保险学专业系列教材 保险学原理与实务》林佳依责任编辑;(中国)牟晓伟,李彤宇 2019
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《流体力学》张扬军,彭杰,诸葛伟林编著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《办好人民满意的教育 全国教育满意度调查报告》(中国)中国教育科学研究院 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《人民院士》吴娜著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《中国人民的心》杨朔著;夕琳编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中华人民共和国成立70周年优秀文学作品精选 短篇小说卷 上 全2册》贺邵俊主编 2019
- 《指向核心素养 北京十一学校名师教学设计 数学 九年级 上 配人教版》周志英总主编 2019
- 《中华人民共和国成立70周年优秀文学作品精选 中篇小说卷 下 全3册》洪治纲主编 2019