普通高等教育新工科人才培养规划教材 Hadoop大数据开发 大数据专业PDF电子书下载
- 电子书积分:9 积分如何计算积分?
- 作 者:刘春阳,张学龙,刘丽军主编;陈勇,陈艳男,蒋中洲,王宇希副主编
- 出 版 社:北京:中国水利水电出版社
- 出版年份:2018
- ISBN:9787517069034
- 页数:176 页
第1章 大数据概论 1
1.1 大数据概述 1
1.1.1 大数据产生的时代背景 1
1.1.2 大数据的特征 2
1.1.3 大数据应用案例 2
1.1.4.大数据的机遇与挑战 5
1.2 大数据处理技术 5
1.3 大数据与云计算 6
1.4 本章小结 7
第2章 大数据处理平台Hadoop 8
2.1 Hadoop生态系统 8
2.2 Hadoop架构 11
2 2.1 HDFS 12
2.2.2 MapReduce 12
2.2.3 Yarn 13
2.3 Hadoop版本变迁 13
2.3.1 Hadoop发展史 13
2.3.2 如何选择Hadoop开发版本 14
2.4 本章小结 14
第3章 Hadoop平台搭建 15
3.1 基础环境配置 15
3.2 Hadoop配置文件修改 15
3.3 Hadoop平台运行及验证 22
3.4 本章小结 23
第4章 分布式文件系统HDFS 24
4.1 HDFS架构 24
4.1.1 HDFS的基本框架 24
4.1.2 HDFS的特点 26
4.2 HDFS的工作机制 27
4.2.1 HDFS读写过程分析 27
4.2.2 NameNode的工作机制 29
4.2.3 元数据的CheckPoint 32
4.2.4 DataNode的工作机制 33
4.3 HDFS shell命令 34
4.3.1 帮助相关命令 35
4.3.2 查看相关命令 36
4.3.3 文件及目录相关命令 37
4.3.4 统计相关命令 46
4.3.5 快照命令 47
4.4 本章小结 48
第5章 HDFS Java API编程 49
5.1 远程开发环境搭建 49
5.2 HDFS Java API接口 53
5.3 HDFS Java API编程 53
5.3.1 获取文件系统 55
5.3.2 列出所有DataNode的名字信息 56
5.3.3 创建文件目录 57
5.3.4 删除文件或文件目录 58
5.3.5 查看文件是否存在 59
5.3.6 文件上传至HDFS 59
5.3.7 从HDFS下载文件 60
5.3.8 文件重命名 61
5.3.9 遍历目录和文件 62
5.3.10 根据filter获取目录下的文件 63
5.3.11 取得数据块所在的位置 65
5.4 程序打包 66
5.5 本章小结 68
第6章 并行计算MapReduce 69
6.1 MapReduce编程模型 69
6.1.1 并行编程模型概述 69
6.1.2 并行计算编程模型 70
6.1.3 MapReduce编程模型 72
6.2 MapReduce工作原理 73
6.3 Yarn 75
6.3.1 Yarn基本框架与组件 75
6.3.2 Yarn工作流程 76
6.3.3 新旧Hadoop MapReduce框架对比 77
6.4 MapReduce Shuffle性能调优 79
6.5 本章小结 80
第7章 MapReduce Java API编程 81
7.1 MapReduce Java API接口讲解 81
7.1.1 InputFormat接口 82
7.1.2 Mapper类 85
7.1.3 Partitioner类 87
7.1.4 Combiner类 88
7.1.5 Reducer类 89
7.1.6 OutputFormat接口 90
7.1.7 GenericOptionsParser类 91
7.1.8 DistributedCache类 91
7.2 MapReduce Java API应用实例 92
7.2.1 统计单词出现频率 92
7.2.2 统计出现的单词 96
7.2.3 统计平均成绩 99
7.2.4 排序 101
7.2.5 求年最高温度 103
7.2.6 关系运算——投影运算 106
7.2.7 关系运算——并运算 108
7.2.8 关系运算——交运算 110
7.2.9 关系运算——差运算 111
7.2.10 关系运算——连接运算 114
7.3 MapReduce Java API高级编程 116
7.3.1 多输入路径方式 116
7.3.2 使用Partitioner实现输出到多个文件 119
7.3.3 自定义OutputFormat文件输出 122
7.3.4 文本文件转化成XML文件 127
7.3.5 通过MultipleOutputs完成多文件输出 130
7.3.6 将MapReduce产生的结果集导入到MySQL中 135
7.3.7 自定义比较器 140
7.3.8 MapReduce分析明星微博数据 145
7.3.9 MapReduce最佳成绩统计 152
7.3.10 MapReduce链接作业 158
7.3.11 利用Job嵌套求解二度人脉 162
7.4 本章小结 168
附录CentOS7安装 169
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《天水师范学院60周年校庆文库 新工科视域下的工程基础与应用研究》《天水师范学院60周年校庆文库》编委会编 2019
- 《智能制造高技能人才培养规划丛书 ABB工业机器人虚拟仿真教程》(中国)工控帮教研组 2019
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《中国当代乡土小说文库 本乡本土》(中国)刘玉堂 2019
- 《异质性条件下技术创新最优市场结构研究 以中国高技术产业为例》千慧雄 2019
- 《中国铁路人 第三届现实主义网络文学征文大赛一等奖》恒传录著 2019
- 《莼江曲谱 2 中国昆曲博物馆藏稀见昆剧手抄曲谱汇编之一》郭腊梅主编;孙伊婷副主编;孙文明,孙伊婷编委;中国昆曲博物馆编 2018
- 《中国制造业绿色供应链发展研究报告》中国电子信息产业发展研究院 2019
- 《中央财政支持提升专业服务产业发展能力项目水利工程专业课程建设成果 设施农业工程技术》赵英编 2018
- 《中国陈设艺术史》赵囡囡著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《《走近科学》精选丛书 中国UFO悬案调查》郭之文 2019
- 《清至民国中国西北戏剧经典唱段汇辑 第8卷》孔令纪 2018