Hadoop实战手册PDF电子书下载
- 电子书积分:10 积分如何计算积分?
- 作 者:(美)欧文斯,(美)伦茨,(美)费米亚诺著
- 出 版 社:北京:人民邮电出版社
- 出版年份:2014
- ISBN:9787115337955
- 页数:242 页
第1章 Hadoop分布式文件系统——导入和导出数据 1
1.1介绍 1
1.2使用Hadoop shell命令导入和导出数据到HDFS 2
1.3使用distcp实现集群间数据复制 7
1.4使用Sqoop从MySQL数据库导入数据到HDFS 9
1.5使用Sqoop从HDFS导出数据到MySQL 12
1.6配置Sqoop以支持SQL Server 15
1.7从HDFS导出数据到MongoDB 17
1.8从MongoDB导入数据到HDFS 20
1.9使用Pig从HDFS导出数据到MongoDB 23
1.10在Greenplum外部表中使用HDFS 24
1.11利用Flume加载数据到HDFS中 26
第2章 HDFS 28
2.1介绍 28
2.2读写HDFS数据 29
2.3使用LZO压缩数据 31
2.4读写序列化文件数据 34
2.5使用Avro序列化数据 37
2.6使用Thrift序列化数据 41
2.7使用Protocol Buffers序列化数据 44
2.8设置HDFS备份因子 48
2.9设置HDFS块大小 49
第3章 抽取和转换数据 51
3.1介绍 51
3.2使用MapReduce将Apache日志转换为TSV格式 52
3.3使用Apache Pig过滤网络服务器日志中的爬虫访问量 54
3.4使用Apache Pig根据时间戳对网络服务器日志数据排序 57
3.5使用Apache Pig对网络服务器日志进行会话分析 59
3.6通过Python扩展Apache Pig的功能 61
3.7使用MapReduce及二次排序计算页面访问量 62
3.8使用Hive和Python清洗、转换地理事件数据 67
3.9使用Python和Hadoop Streaming执行时间序列分析 71
3.10在MapReduce中利用MultipleOutputs输出多个文件 75
3.11创建用户自定义的Hadoop Writable及InputFormat读取地理事件数据 78
第4章 使用Hive、Pig和MapReduce处理常见的任务 85
4.1介绍 85
4.2使用Hive将HDFS中的网络日志数据映射为外部表 86
4.3使用Hive动态地为网络日志查询结果创建Hive表 87
4.4利用Hive字符串UDF拼接网络日志数据的各个字段 89
4.5使用Hive截取网络日志的IP字段并确定其对应的国家 92
4.6使用MapReduce对新闻档案数据生成n-gram 94
4.7通过MapReduce使用分布式缓存查找新闻档案数据中包含关键词的行 98
4.8使用Pig加载一个表并执行包含GROUP BY的SELECT操作 102
第5章 高级连接操作 104
5.1介绍 104
5.2使用MapReduce对数据进行连接 104
5.3使用Apache Pig对数据进行复制连接 108
5.4使用Apache Pig对有序数据进行归并连接 110
5.5使用Apache Pig对倾斜数据进行倾斜连接 111
5.6在Apache Hive中通过map端连接对地理事件进行分析 113
5.7在Apache Hive通过优化的全外连接分析地理事件数据 115
5.8使用外部键值存储(Redis)连接数据 118
第6章 大数据分析 123
6.1介绍 123
6.2使用MapReduce和Combiner统计网络日志数据集中的独立IP数 124
6.3运用Hive日期UDF对地理事件数据集中的时间日期进行转换与排序 129
6.4使用Hive创建基于地理事件数据的每月死亡报告 131
6.5实现Hive用户自定义UDF用于确认地理事件数据的来源可靠性 133
6.6使用Hive的map/reduce操作以及Python标记最长的无暴力发生的时间区间 136
6.7使用Pig计算 Audioscrobbler数据集中艺术家之间的余弦相似度 141
6.8使用Pig以及datafu剔除Audioscrobbler数据集中的离群值 145
第7章 高级大数据分析 147
7.1介绍 147
7.2使用Apache Giraph计算PageRank 147
7.3使用Apache Giraph计算单源最短路径 150
7.4使用Apache Giraph执行分布式宽度优先搜索 158
7.5使用Apache Mahout计算协同过滤 165
7.6使用Apache Mahout进行聚类 168
7.7使用Apache Mahout进行情感分类 171
第8章 调试 174
8.1介绍 174
8.2在MapReduce中使用Counters监测异常记录 174
8.3使用MRUnit开发和测试MapReduce 177
8.4本地模式下开发和测试MapReduce 179
8.5运行MapReduce作业跳过异常记录 182
8.6在流计算作业中使用Counters 184
8.7更改任务状态显示调试信息 185
8.8使用illustrate调试Pig作业 187
第9章 系统管理 189
9.1介绍 189
9.2在伪分布模式下启动Hadoop 189
9.3在分布式模式下启动Hadoop 192
9.4添加一个新节点 195
9.5节点安全退役 197
9.6 NameNode故障恢复 198
9.7使用Ganglia监控集群 199
9.8 MapReduce作业参数调优 201
第10章 使用Apache Accumulo进行持久化 204
10.1介绍 204
10.2在Accumulo中设计行键存储地理事件 205
10.3使用MapReduce批量导入地理事件数据到Accumulo 213
10.4设置自定义字段约束Accumulo中的地理事件数据 220
10.5使用正则过滤器限制查询结果 225
10.6使用SumCombiner计算同一个键的不同版本的死亡数总和 228
10.7使用Accumulo实行单元级安全的扫描 232
10.8使用MapReduce聚集Accumulo中的消息源 237
- 《Maya 2018完全实战技术手册》来阳编著 2019
- 《Python3从入门到实战》董洪伟 2019
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《星空摄影后期实战》阿五在路上著 2020
- 《高等教育双机械基础课程系列教材 高等学校教材 机械设计课程设计手册 第5版》吴宗泽,罗圣国,高志,李威 2018
- 《慢性呼吸系统疾病物理治疗工作手册》(荷)瑞克·考斯林克(RikGosselink) 2020
- 《战略情报 情报人员、管理者和用户手册》(澳)唐·麦克道尔(Don McDowell)著 2019
- 《半小时漫画股票实战法》财经杂质著 2019
- 《深度学习与飞桨PaddlePaddle Fluid实战》于祥 2019
- 《实用内科手册》黄清,阮浩航主编 2016
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《办好人民满意的教育 全国教育满意度调查报告》(中国)中国教育科学研究院 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《人民院士》吴娜著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《中国人民的心》杨朔著;夕琳编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中华人民共和国成立70周年优秀文学作品精选 短篇小说卷 上 全2册》贺邵俊主编 2019
- 《指向核心素养 北京十一学校名师教学设计 数学 九年级 上 配人教版》周志英总主编 2019
- 《中华人民共和国成立70周年优秀文学作品精选 中篇小说卷 下 全3册》洪治纲主编 2019