Hadoop大数据处理技术基础与实践PDF电子书下载
- 电子书积分:11 积分如何计算积分?
- 作 者:安俊秀,王鹏,靳宇倡编著
- 出 版 社:北京:人民邮电出版社
- 出版年份:2015
- ISBN:9787115400741
- 页数:291 页
第1章Hadoop概述 1
1.1 Hadoop来源和动机 1
1.2 Hadoop体系架构 4
1.3 Hadoop与分布式开发 6
1.4 Hadoop行业应用案例分析 8
1.4.1 Hadoop在门户网站的应用 8
1.4.2 Hadoop在搜索引擎中的应用 9
1.4.3 Hadoop在电商平台中的应用 9
1.5小结 10
习题 10
第2章Hadoop安装与配置管理 11
2.1实验准备 11
2.2配置一个单节点环境 13
2.2.1运行一个虚拟环境CentOS 13
2.2.2配置网络 14
2.2.3创建新的用户组和用户 18
2.2.4上传文件到CentOS并配置Java和Hadoop环境 20
2.2.5修改Hadoop2.2配置文件 24
2.2.6修改CentOS主机名 28
2.2.7绑定hostname与IP 29
2.2.8关闭防火墙 29
2.3节点之间的免密码通信 30
2.3.1什么是SSH 30
2.3.2复制虚拟机节点 30
2.3.3配置SSH免密码登录 31
2.4 Hadoop的启动和测试 34
2.4.1格式化文件系统 34
2.4.2启动HDFS 34
2.4.3启动Yarn 35
2.4.4管理JobHistory Server 36
2.4.5集群验证 36
2.4.6需要了解的默认配置 37
2.5动态管理节点 38
2.5.1动态增加和删除datanode 38
2.5.2动态修改TaskTracker 39
2.6小结 40
习题 41
第3章HDFS技术 42
3.1 HDFS的特点 42
3.2 HDFS架构 43
3.2.1数据块 44
3.2.2元数据节点与数据节点 45
3.2.3辅助元数据节点 47
3.2.4安全模式 48
3.2.5负载均衡 49
3.2.6垃圾回收 49
3.3 HDFSShell命令 50
3.3.1文件处理命令 50
3.3.2 dfsadmin命令 56
3.3.3 namenode命令 58
3.3.4 fsck命令 58
3.3.5 pipes命令 59
3.3.6 job命令 59
3.4 HDFS中的Java API的使用 60
3.4.1上传文件 62
3.4.2新建文件 63
3.4.3查看文件详细信息 65
3.4.4下载文件 66
3.5 RPC通信 67
3.5.1反射机制 68
3.5.2代理模式与动态代理 71
3.5.3 Hadoop RPC机制与源码分析 74
3.6小结 78
习题 78
第4章MapReduce技术 79
4.1什么是MapReduce 79
4.2 MapReduce编程模型 81
4.2.1 MapReduce编程模型简介 81
4.2.2 MapReduce简单模型 82
4.2.3 MapReduce复杂模型 82
4.2.4 MapReduce编程实例——WordCount 83
4.3 MapReduce数据流 84
4.3.1分片、格式化数据源(InputFonnat) 84
4.3.2 Map过程 86
4.3.3 Shuffle过程 86
4.3.4 Reduce过程 91
4.3.5文件写入(OutputFormat) 92
4.4 MapReduce任务流程 92
4.4.1 MRv2基本组成 92
4.4.2 Yarn基本组成 93
4.4.3任务流程 93
4.5 MapReduce的Streaming和Pipe 94
4.5.1 Hadoop Streaming 95
4.5.2 Hadoop Pipe 96
4.6 MapReduce性能调优 98
4.7 MapReduce实战 100
4.7.1快速入门 100
4.7.2简单使用Eclipse插件 113
4.8小结 122
习题 123
第5章Hadoop I/O操作 124
5.1 HDFS数据完整性 124
5.1.1校验和 125
5.1.2 DataBIockScanner 126
5.2基于文件的数据结构 126
5.2.1 SequenceFile存储 126
5.2.2 MapFile 131
5.2.3 SequenceFile转换为MapFile 135
5.3压缩 136
5.3.1 Codec 136
5.3.2本地库 139
5.3.3如何选择压缩格式 140
5.4序列化 141
5.4.1 Writable接口 142
5.4.2 WritableComparable 143
5.4.3 Hadoop writable基本类型 144
5.4.4自定义writable类型 150
5.5小结 152
习题 152
第6章 海量数据库HBase技术 153
6.1初识HBase 153
6.2 HBase表视图 154
6.2.1概念视图 154
6.2.2物理视图 155
6.3 HBase物理存储模型 156
6.4安装HBase 163
6.4.1 HBase单节点安装 163
6.4.2 HBase伪分布式安装 166
6.4.3 HBase完全分布式安装 167
6.5 HBase Shell 169
6.5.1 general一般操作 172
6.5.2 ddl操作 172
6.5.3 dml操作 175
6.6小结 178
习题 178
第7章ZooKeeper技术 179
7.1分布式协调技术 179
7.2实现者 180
7.3角色 180
7.4 ZooKeeper数据模型 181
7.4.1 Znode 181
7.4.2 ZooKeeper中的时间 182
7.4.3 ZooKeeper节点属性 182
7.4.4 watch触发器 183
7.5 ZooKeeper集群安装 184
7.6 ZooKeeper主要Shell操作 186
7.7典型运用场景 188
7.7.1数据发布与订阅(Data pulica-tion and subscription) 188
7.7.2统一命名服务(Name Service) 189
7.7.3分布通知/协调(Distribution of notification/coordination) 190
7.8小结 191
习题 191
第8章 分布式数据仓库技术Hive 192
8.1 Hive出现原因 193
8.2 Hive服务组成 193
8.3 Hive安装 195
8.3.1 Hive基本安装 195
8.3.2 MySQL安装 195
8.3.3 Hive配置 196
8.4 Hive Shell介绍 199
8.5 HiveQL详解 200
8.5.1 Hive管理数据方式 201
8.5.2 Hive表DDL操作 203
8.5.3 Hive表DML操作 213
8.6小结 217
习题 217
第9章 分布式数据分析工具Pig 218
9.1 Pig的安装和配置 219
9.2 Pig基本概念 219
9.3 Pig保留关键字 221
9.4使用Pig 223
9.4.1 Pig命令行选项 223
9.4.2 Pig的两种运行模式 223
9.4.3 Pig相关Shell命令详解 224
9.4.4 Pig程序运行方式 228
9.4.5 Pig输入与输出 230
9.5模式(schemas) 232
9.6 Pig相关函数详解 240
9.7小结 245
习题 245
第10章Hadoop与RDBMS数据迁移工具Sqoop 246
10.1 Sqoop基本安装 247
10.2 Sqoop配置 247
10.3 Sqoop相关功能 248
10.3.1 sqoop-import操作 251
10.3.2 sqoop-import-all-tables操作 256
10.3.3 sqoop-export操作 258
10.3.4 sqoop-list-databases操作 260
10.3.5 sqoop-list-tables操作 261
10.4 Hive、 Pig和Sqoop三者之间的关系 261
10.5小结 262
习题 262
第11章Hadoop1.x与Hadoop2.x的比较 263
11.1 Hadoop发展历程 263
11.2 Hadoop 1.x与Hadoop 2.x之间的差异 264
11.2.1 Hadoop 1与Hadoop 2体系结构对比 265
11.2.2 Hadoop 1与Hadoop2之间配置差异 266
11.2.3 YARN 267
11.2.4 HDFS联邦机制(Federation) 269
11.3小结 272
习题 272
第12章Hadoop实时数据处理技术 273
12.1 Storm-YARN概述 274
12.1.1 Apache Storm组成结构 274
12.1.2 Storm数据流 274
12.1.3 Storm-YARN产生背景 276
12.1.4 Storm-YARN功能介绍 276
12.2 Apache Spark概述 277
12.2.1 Apache Spark组成结构 277
12.2.2 Apache Spark扩展功能 278
12.3 Storm与Spark的比较 279
12.4小结 279
习题 280
附录A使用Eclipse提交H adoop任务相关错误解决 281
附录B常用Pig内置函数简介 283
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《联吡啶基钌光敏染料的结构与性能的理论研究》李明霞 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《语文教育教学实践探索》陈德收 2018
- 《彼得·布鲁克导演实践研究》邓小玲著 2019
- 《反思性实践》胡红梅, 2019
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《高含硫气藏开发腐蚀控制技术与实践》唐永帆,张强 2018
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《环境影响评价公众参与理论与实践研究》樊春燕主编 2019
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《流体力学》张扬军,彭杰,诸葛伟林编著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《办好人民满意的教育 全国教育满意度调查报告》(中国)中国教育科学研究院 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《人民院士》吴娜著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《中国人民的心》杨朔著;夕琳编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中华人民共和国成立70周年优秀文学作品精选 短篇小说卷 上 全2册》贺邵俊主编 2019
- 《指向核心素养 北京十一学校名师教学设计 数学 九年级 上 配人教版》周志英总主编 2019
- 《中华人民共和国成立70周年优秀文学作品精选 中篇小说卷 下 全3册》洪治纲主编 2019