大数据技术基础 基于Hadoop与SparkPDF电子书下载
- 电子书积分:11 积分如何计算积分?
- 作 者:罗福强,李瑶,陈虹君编著
- 出 版 社:北京:人民邮电出版社
- 出版年份:2017
- ISBN:9787115454102
- 页数:292 页
第1章 大数据技术概述 1
1.1大数据技术的发展背景 1
1.1.1大数据技术的发展过程 2
1.1.2大数据技术的影响 3
1.1.3大数据发展的重大事件 5
1.2大数据的概念、特征及意义 7
1.2.1什么是大数据 7
1.2.2大数据的特征 8
1.2.3大数据来自哪儿 9
1.2.4大数据的挑战 10
1.2.5研究大数据的意义 12
1.3大数据的存储与计算模式 13
1.3.1大数据的存储模式 13
1.3.2大数据的计算模式 16
1.4大数据的典型应用 18
1.4.1智慧医疗的应用 19
1.4.2智慧农业的应用 20
1.4.3金融行业的应用 21
1.4.4零售行业的应用 24
1.4.5电子商务行业的应用 24
1.4.6电子政务的应用 24
1.5初识Hadoop大数据平台 26
1.5.1 Hadoop的发展过程 26
1.5.2 Hadoop的优势 27
1.5.3 Hadoop的生态系统 28
1.5.4 Hadoop的版本 29
1.6习题 32
第2章Hadoop平台的安装与配置 33
2.1安装准备 33
2.1.1硬件要求 33
2.1.2安装Linux 34
2.1.3安装Java 36
2.2 Hadoop的集群安装 38
2.2.1 Hadoop的运行模式 38
2.2.2 Linux系统设置 39
2.2.3 SSH的安装 41
2.2.4 Hadoop的安装 42
2.2.5 Hadoop的配置 42
2.2.6 Hadoop的测试 49
2.3 Hadoop开发平台的安装 51
2.3.1 Eclipse的安装 51
2.3.2下载hadoop-eclipse-plugin插件 53
2.3.3在Eclipse中配置Hadoop 53
2.4习题 55
2.5实训 55
第3章Hadoop分布式文件系统 57
3.1 HDFS概述 57
3.1.1 HDFS简介 57
3.1.2 HDFS的基本概念 58
3.1.3 HDFS的特点 59
3.2 HDFS的体系结构 61
3.2.1 HDFS设计目标 61
3.2.2 HDFS的结构模型 61
3.2.3 HDFS文件的读写 63
3.2.4 HDFS的数据组织机制 63
3.2.5 HDFS的高可用性机制 66
3.3 HDFS Shell操作 68
3.3.1 Shell命令介绍 68
3.3.2 HDFS Shell帮助 68
3.3.3文件操作命令 69
3.3.4跨文件系统的交互操作命令 73
3.3.5权限管理操作 74
3.4习题 76
3.5实训 77
第4章HDFS API编程 78
4.1 HDFS API概述 78
4.1.1 HDFS API简介 78
4.1.2 HDFS Java API的一般用法 82
4.2 HDFS Java API客户端编程 85
4.2.1目录与文件的创建 85
4.2.2文件上传与下载 87
4.2.3数据流与文件读写操作 89
4.2.4目录与文件的重命名 93
4.2.5目录和文件的删除 94
4.2.6文件系统的状态信息显示 95
4.3 HDFS应用举例——云盘系统的实现 99
4.3.1云盘系统分析 99
4.3.2云盘系统设计 99
4.3.3云盘系统实现 100
4.4习题 104
4.5实训 104
第5章Hadoop分布式计算框架 106
5.1 MapReduce概述 106
5.1.1为什么需要MapReduce 106
5.1.2 MapReduce的优势 110
5.1.3 MapReduce的基本概念 111
5.1.4 MapReduce框架 112
5.1.5 MapReduce发展 114
5.2 YARN运行机制 118
5.2.1 YARN组成结构 118
5.2.2 YARN通信协议 120
5.2.3 YARN工作流程 121
5.3数据的混洗处理 123
5.3.1 map端 124
5.3.2 reduce端 125
5.4作业的调度 125
5.4.1 FIFO调度器 126
5.4.2 Capacity调度器 126
5.4.3 Fair调度器 127
5.4.4调度器的比较 128
5.5任务的执行 129
5.5.1推测执行 129
5.5.2 JVM重用 130
5.5.3跳过坏记录 130
5.6失败处理机制 130
5.6.1任务运行失败 130
5.6.2 ApplicationMaster运行失败 131
5.6.3 NodeManager运行失败 131
5.6.4 ResourceManager运行失败 132
5.6.5日志文件 133
5.7 MapReduce示例演示——WordCount 133
5.8习题 136
第6章MapReduce API编程 137
6.1 MapReduce API概述 137
6.1.1 MapReduce API简介 137
6.1.2 MapReduce API编程思路 140
6.2 MapReduce的数据类型 146
6.2.1序列化 146
6.2.2 Writable接口 146
6.2.3 Writable类 148
6.3 MapReduce的输入 153
6.3.1输入分片 153
6.3.2文件输入 154
6.3.3文本输入 156
6.3.4二进制输入 157
6.3.5多个输入 158
6.3.6数据库输入 159
6.4 MapReduce的输出 159
6.4.1文本输出 160
6.4.2二进制输出 160
6.4.3多个输出 160
6.4.4延迟输出 161
6.4.5数据库输出 161
6.5 MapReduce的任务 161
6.5.1 map任务 162
6.5.2 combine任务 163
6.5.3 partition任务 164
6.5.4 reduce任务 164
6.5.5任务的配置与执行 165
6.6 MapReduce应用举例——倒排索引 168
6.6.1功能介绍 168
6.6.2准备数据 169
6.6.3分析与设计 170
6.6.4 MapReduce编码实现 171
6.6.5测试结果 173
6.7习题 174
6.8实训 175
第7章MapReduce高级编程 177
7.1自定义数据类型 177
7.2自定义输入/输出 183
7.2.1 RecordReader与RecordWriter 183
7.2.2自定义输入 188
7.2.3自定义输出 192
7.3自定义Combiner/Partitioner 194
7.3.1自定义Combiner 194
7.3.2自定义Partitioner 197
7.4组合式计算作业 200
7.4.1迭代式计算 200
7.4.2依赖关系组合式计算 201
7.4.3链式计算 202
7.5 MapReduce的特性 203
7.5.1计数器 203
7.5.2连接 210
7.6 MapReduce应用举例——成绩分析系统的实现 215
7.6.1成绩分析系统解析 215
7.6.2成绩分析系统功能设计 216
7.6.3成绩分析系统实现 216
7.7习题 225
7.8实训 225
第8章Spark概述 226
8.1环境搭建 226
8.1.1 Scala的下载和安装 227
8.1.2 Spark的下载与安装 228
8.2 Spark简介 231
8.2.1 Spark的发展 231
8.2.2 Spark的特点 232
8.2.3 Spark与Hadoop的关系 233
8.2.4 Spark的企业应用 234
8.3 Spark大数据技术框架 235
8.3.1 Spark技术体系 235
8.3.2四大组件概述 237
8.4 Spark 2.0使用体验 238
8.4.1 Spark入口 238
8.4.2第一个Spark程序 239
8.5 Spark的数据模型 242
8.5.1 RDD介绍 242
8.5.2 RDD的处理过程 243
8.5.3 Transformation算子与使用 243
8.5.4 Action算子与使用 251
8.5.5 RDD分区 253
8.5.6 RDD的依赖关系 253
8.5.7 RDD的容错支持 254
8.6 Spark任务调度 255
8.6.1 Spark应用程序部署 255
8.6.2 Spark任务的调度机制 255
8.7习题 256
8.8实训 257
第9章Spark Streaming编程 258
9.1 Spark Streaming介绍 258
9.2 Spark Streaming工作机制 259
9.3 Spark的DStream流 262
9.3.1 DStream转换 262
9.3.2 Window操作 263
9.3.3 DStream输出 264
9.3.4持久化与序列化 265
9.3.5设置检测点 266
9.4 Spark Streaming案例 267
9.5集群处理与性能 270
9.6习题 272
9.7实训 272
第10章Spark SQL编程 273
10.1 Spark SQL概述 273
10.2 DataFrame 275
10.2.1 DataSet与DataFrame 275
10.2.2反射机制获取RDD内的Schema 276
10.2.3编程接口指定Schema 277
10.3数据源 278
10.3.1一般load/save方法 278
10.3.2 Parquet数据集 279
10.3.3 JSON数据集 280
10.3.4 JDBC数据集 281
10.3.5 DataFrame的案例 282
10.4 Spark Streaming与Spark SQL综合案例 285
10.5习题 290
10.6实训 291
参考文献 292
- 《市政工程基础》杨岚编著 2009
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《零基础学会素描》王金著 2019
- 《钒产业技术及应用》高峰,彭清静,华骏主编 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《现代水泥技术发展与应用论文集》天津水泥工业设计研究院有限公司编 2019
- 《生物质甘油共气化制氢基础研究》赵丽霞 2019
- 《异质性条件下技术创新最优市场结构研究 以中国高技术产业为例》千慧雄 2019
- 《Prometheus技术秘笈》百里燊 2019
- 《花时间 我的第一堂花艺课 插花基础技法篇》(日)花时间编辑部编;陈洁责编;冯莹莹译 2020
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《流体力学》张扬军,彭杰,诸葛伟林编著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《办好人民满意的教育 全国教育满意度调查报告》(中国)中国教育科学研究院 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《人民院士》吴娜著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《中国人民的心》杨朔著;夕琳编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中华人民共和国成立70周年优秀文学作品精选 短篇小说卷 上 全2册》贺邵俊主编 2019
- 《指向核心素养 北京十一学校名师教学设计 数学 九年级 上 配人教版》周志英总主编 2019
- 《中华人民共和国成立70周年优秀文学作品精选 中篇小说卷 下 全3册》洪治纲主编 2019