大数据技术基础PDF电子书下载
- 电子书积分:10 积分如何计算积分?
- 作 者:中科普开编著
- 出 版 社:北京:清华大学出版社
- 出版年份:2016
- ISBN:9787302437574
- 页数:248 页
第1章 大数据概论 1
1.1 大数据时代背景 1
1.1.1 大数据的数据源 1
1.1.2 大数据的价值和影响 2
1.1.3 大数据技术应用场景 3
1.1.4 大数据技术的发展前景 4
1.2 大数据基本概念 5
1.2.1 大数据定义 5
1.2.2 大数据结构类型 7
1.2.3 大数据核心特征 7
1.2.4 大数据技术 8
1.2.5 行业应用大数据实例 10
1.3 大数据系统 11
1.3.1 设计目标和原则 11
1.3.2 当前大数据系统 12
1.4 大数据与企业 16
1.4.1 大数据对企业的挑战性 16
1.4.2 企业大数据的发展方向 19
1.4.3 企业大数据观 20
本章小结 20
习题 21
第2章 初识Hadoop 22
2.1 Hadoop简介 22
2.1.1 Hadoop概况 22
2.1.2 Hadoop的功能和作用 23
2.1.3 Hadoop的优势 23
2.1.4 Hadoop的发展史 24
2.1.5 Hadoop的应用前景 25
2.2 深入了解Hadoop 25
2.2.1 Hadoop的体系结构 25
2.2.2 Hadoop与分布式开发 27
2.2.3 Hadoop生态系统 29
2.3 Hadoop与其他系统 30
2.3.1 Hadoop与关系型数据库管理系统 30
2.3.2 Hadoop与云计算 32
2.4 Hadoop应用案例 32
2.4.1 Hadoop在百度的应用 32
2.4.2 Hadoop在Yahoo!的应用 33
2.4.3 Hadoop在eBay的应用 35
本章小结 37
习题 37
第3章 认识HDFS 39
3.1 HDFS简介 39
3.2 HDFS的特性和设计目标 40
3.2.1 HDFS的特性 40
3.2.2 HDFS的设计目标 41
3.3 HDFS的核心设计 42
3.3.1 数据块 42
3.3.2 数据复制 42
3.3.3 数据副本的存放策略 43
3.3.4 机架感知 45
3.3.5 安全模式 46
3.3.6 负载均衡 47
3.3.7 心跳机制 48
3.4 HDFS的体系结构 49
3.4.1 Master/Slave架构 49
3.4.2 NameNode、SecondaryNameNode、DataNode 50
本章小结 55
习题 55
第4章 HDFS的运行机制 56
4.1 HDFS中数据流的读写 56
4.1.1 RPC实现流程 56
4.1.2 RPC实现模型 57
4.1.3 文件的读取 59
4.1.4 文件的写入 60
4.1.5 文件的一致模型 61
4.2 HDFS的HA机制 62
4.2.1 为什么有HA机制 62
4.2.2 HA集群和架构 63
4.3 HDFS的Federation机制 64
4.3.1 为什么引入Federation机制 64
4.3.2 Federation架构 66
4.3.3 多命名空间管理 67
本章小结 67
习题 68
第5章 访问HDFS 69
5.1 命令行常用接口 69
5.1.1 HDFS操作体验 69
5.1.2 HDFS常用命令 71
5.2 Java接口 73
5.2.1 从Hadoop URL中读取数据 74
5.2.2 通过FileSystem API读取数据 75
5.2.3 写入数据 76
5.2.4 创建目录 78
5.2.5 查询文件系统 78
5.2.6 删除数据 81
5.3 其他常用接口 81
5.3.1 Thrift 81
5.3.2 C语言 82
5.3.3 HTTP 82
本章小结 82
习题 83
第6章 Hadoop I/O详解 84
6.1 数据完整性 84
6.1.1 HDFS的数据完整性 84
6.1.2 验证数据完整性 85
6.2 文件压缩 86
6.2.1 Hadoop支持的压缩格式 86
6.2.2 压缩-解压缩算法codec 87
6.2.3 压缩和输入分片 91
6.3 文件序列化 92
6.3.1 Writable接口 93
6.3.2 WritableComparable接口 94
6.3.3 Writable实现类 95
6.3.4 自定义Writable接口 100
6.3.5 序列化框架 104
6.4 Hadoop文件的数据结构 104
6.4.1 SequenceFile存储 104
6.4.2 MapFile存储 108
本章小结 111
习题 111
第7章 识识MapReduce编程模型 113
7.1 MapReduce编程模型简介 113
7.1.1 什么是MapReduce 113
7.1.2 MapReduce程序的设计方法 114
7.1.3 新旧MapReduce简介 115
7.1.4 Hadoop MapReduce架构 116
7.1.5 MapReduce的优缺点 117
7.2 WordCount编程实例 118
7.2.1 WordCount的设计思路 118
7.2.2 编写WordCount代码 118
7.2.3 运行程序 119
7.2.4 代码讲解 120
7.3 MapReduce的编程 122
7.3.1 配置开发环境 122
7.3.2 编写Mapper类 124
7.3.3 编写Reducer类 125
7.3.4 编写main函数 125
7.4 MapReduce在集群上的运作 127
7.4.1 作业的打包和启动 127
7.4.2 MapReduce的Web界面 128
7.4.3 获取结果 130
本章小结 131
习题 131
第8章 MapReduce应用编程开发 132
8.1 MapReduce类型与格式 132
8.1.1 MapReduce的类型 132
8.1.2 输入格式 137
8.1.3 输出格式 148
8.2 Java API解析 150
8.2.1 作业配置与提交 151
8.2.2 InputFormat接口的设计与实现 152
8.2.3 OutputFormat接口的设计与实现 157
8.2.4 Mapper与Reducer解析 159
本章小结 163
习题 163
第9 MapReduce的工作机制与YARN平台 165
9.1 YARN平台简介 165
9.1.1 YARN的诞生 165
9.1.2 YARN的作用 166
9.2 YARN的架构 166
9.2.1 ResourceManager 167
9.2.2 ApplicationMaster 168
9.2.3 NodeManager 168
9.2.4 资源模型 169
9.2.5 ResourceRequest和Container 169
9.2.6 Container规范 170
9.3 剖析MapReduce作业运行机制 170
9.4 基于YARN的运行机制剖析 171
9.5 Shuffle和排序 175
9.5.1 map端 175
9.5.2 reduce端 176
9.6 任务的执行 178
9.6.1 任务执行环境 178
9.6.2 推测执行 179
9.6.3 关于OutputCommitters 180
9.6.4 任务JVM重用 181
9.6.5 跳过坏记录 182
9.7 作业的调度 182
9.7.1 公平调度器 183
9.7.2 容量调度器 183
9.8 在YARN上运行MapReduce实例 184
9.8.1 运行Pi实例 184
9.8.2 使用Web GUI监控实例 185
本章小结 189
习题 190
第10章 MapReduce高级开发 191
10.1 计数器 191
10.1.1 内置计数器 191
10.1.2 自定义的Java计数器 193
10.2 数据去重 194
10.2.1 实例描述 194
10.2.2 设计思路 194
10.2.3 程序代码 194
10.3 排序 195
10.3.1 实例描述 196
10.3.2 设计思路 196
10.3.3 程序代码 196
10.4 二次排序 197
10.4.1 二次排序原理 197
10.4.2 二次排序的算法流程 198
10.4.3 代码实现 199
10.5 平均值 202
10.5.1 实例描述 202
10.5.2 设计思路 202
10.5.3 程序代码 203
10.6 Join联接 204
10.6.1 Map端Join 204
10.6.2 Reduce端Join 205
10.6.3 Join实现表关联 205
10.7 倒排索引 209
10.7.1 倒排索引的分析和设计 209
10.7.2 倒排索引完整源码 213
10.7.3 运行代码结果 214
本章小结 215
习题 215
第11章 MapReduce实例 216
11.1 搜索引擎日志处理 216
11.1.1 背景介绍 216
11.1.2 数据收集 216
11.1.3 数据结构 216
11.1.4 需求分析 217
11.1.5 MapReduce编码实现 217
11.2 汽车销售数据分析 223
11.2.1 背景介绍 224
11.2.2 数据收集 224
11.2.3 数据结构 224
11.2.4 需求分析 224
11.2.5 MapReduce编码实现 225
11.3 农产品价格分析 234
11.3.1 背景介绍 234
11.3.2 数据收集 235
11.3.3 数据结构 235
11.3.4 需求分析 236
11.3.5 MapReduce编码实现 236
参考文献 248
- 《市政工程基础》杨岚编著 2009
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《零基础学会素描》王金著 2019
- 《钒产业技术及应用》高峰,彭清静,华骏主编 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《现代水泥技术发展与应用论文集》天津水泥工业设计研究院有限公司编 2019
- 《生物质甘油共气化制氢基础研究》赵丽霞 2019
- 《异质性条件下技术创新最优市场结构研究 以中国高技术产业为例》千慧雄 2019
- 《Prometheus技术秘笈》百里燊 2019
- 《花时间 我的第一堂花艺课 插花基础技法篇》(日)花时间编辑部编;陈洁责编;冯莹莹译 2020
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《流体力学》张扬军,彭杰,诸葛伟林编著 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019