《大数据导论》PDF下载

  • 购买积分:20 如何计算积分?
  • 作  者:李建伟主编
  • 出 版 社:
  • 出版年份:2019
  • ISBN:
  • 页数:0 页
图书介绍:

第1章 大数据概述 1

1.1 大数据概念及价值 1

1.2 大数据数据源 4

1.3 大数据技术应用场景 5

1.4 大数据处理流程及技术 7

1.5 大数据与云计算的关系 9

1.6 大数据与人工智能的关系 10

本章小结 11

习题一 11

第2章 Hadoop介绍 12

2.1 Hadoop简介 12

2.1.1 Hadoop由来 12

2.1.2 Hadoop发展历程 12

2.1.3 Hadoop生态系统 14

2.2 Hadoop的体系架构 17

2.2.1 分布式文件系统HDFS 17

2.2.2 分布式计算框架MapReduce 18

2.2.3 分布式资源调度系统YARN 18

2.3 Hadoop依赖的技术基础 19

2.3.1 Java编程基础 19

2.3.2 Web可视化技术基础 27

2.3.3 关系数据库基础 30

2.3.4 Linux基础 31

2.4 Hadoop2.0集群搭建 69

2.4.1 伪分布式安装部署 69

2.4.2 全分布式安装部署 74

本章小结 80

习题二 80

第3章 分布式文件系统HDFS 81

3.1 HDFS简介 81

3.2 HDFS的设计目标 81

3.3 HDFS的体系架构 82

3.3.1 主从架构 83

3.3.2 HDFS高可用性架构 84

3.4 HDFS的核心设计 87

3.4.1 数据复制 87

3.4.2 健壮性设计 90

3.4.3 数据组织 91

3.4.4 存储空间回收机制 91

3.4.5 可访问性 92

3.5 HDFS中数据流的读写 93

3.5.1 RPC实现流程 93

3.5.2 文件的读取 94

3.5.3 文件的写入 95

3.5.4 一致性模型 97

3.6 HDFS的联邦机制 98

本章小结 99

习题三 100

第4章 访问HDFS的常用接口 101

4.1 HDFS常用命令接口 101

4.2 HDFS编程环境准备 105

4.2.1 IDEA的安装配置及特性 105

4.2.2 Maven的安装配置 114

4.3 Java接口 119

4.3.1 在本地Windows机器上配置Hadoop环境变量 121

4.3.2 编写Java客户端程序 122

本章小结 130

习题四 130

第5章 分布式计算框架MapReduce 131

5.1 MapReduce编程模型简介 131

5.1.1 产生背景 131

5.1.2 MapReduce编程模型 133

5.1.3 MapReduce工作流程 134

5.1.4 MapReduce两个版本比较 139

5.2 MapReduce入门编程 140

5.2.1 认识Map和Reduce 140

5.2.2 MapTask阶段 140

5.2.3 ReduceTask阶段 145

本章小结 147

习题五 148

第6章 MapReduce基础编程 149

6.1 MapReduce编程设计 149

6.1.1 MapReduce分布式计算模型 149

6.1.2 MapReduce分布式编程框架 150

6.2 MapReduce编程实例wordcount 151

6.2.1 wordcount开发需求分析 151

6.2.2 编程环境准备 152

6.2.3 编写Mapper类 152

6.2.4 编写Reducer类 154

6.2.5 MapReduce程序在YARN集群的运行机制 155

6.2.6 编写YARN的客户端 156

6.2.7 YARN集群的配置、作业打包和启动 161

本章小结 163

习题六 163

第7章 分布式资源管理系统YARN 165

7.1 YARN简介 165

7.2 发展史 165

7.2.1 Hadoop1.0 165

7.2.2 Hadoop2.0和Hadoop1.0的区别 166

7.2.3 MapReduce计算框架的演变 166

7.3 YARN的架构 167

7.4 YARN集群执行应用程序的工作流程 169

7.5 Hadoop如何使用YARN运行一个Job 170

7.6 YARN的调度策略 173

7.7 YARN的重要概念总结 176

本章小结 176

习题七 177

第8章 MapReduce高级编程 178

8.1 Combiner 178

8.2 Partitioner 179

8.3 计数器 180

8.4 排序 188

8.5 Join连接 197

8.6 倒排索引 205

8.7 求平均值和数据去重 210

本章小结 215

习题八 216

第9章 分布式锁服务ZooKeeper 217

9.1 ZooKeeper基本概念介绍 217

9.1.1 ZooKeeper的定义 217

9.1.2 ZooKeeper的基本原理和应用场景 217

9.1.3 ZooKeeper的选举机制 218

9.1.4 ZooKeeper的存储机制 220

9.2 ZooKeeper集群部署 220

9.3 ZooKeeper编程实例 222

9.3.1 ZooKeeper API基础知识 222

9.3.2 ZooKeeper API介绍及编程实例 222

本章小结 229

习题九 229

第10章 Hadoop高可用集群搭建 230

10.1 HDFS高可用的工作机制 230

10.2 集群规划 231

10.3 Hadoop HA集群搭建 232

10.3.1 前期准备 232

10.3.2 安装ZooKeeper集群 233

10.3.3 安装Hadoop集群 234

10.3.4 启动集群 242

10.3.5 测试 245

本章小结 247

习题十 247

参考文献 248