当前位置:首页 > 工业技术
Hadoop大数据处理技术基础与实践
Hadoop大数据处理技术基础与实践

Hadoop大数据处理技术基础与实践PDF电子书下载

工业技术

  • 电子书积分:11 积分如何计算积分?
  • 作 者:安俊秀,王鹏,靳宇倡编著
  • 出 版 社:北京:人民邮电出版社
  • 出版年份:2015
  • ISBN:9787115400741
  • 页数:291 页
图书介绍:本书总共有12章,从Hadoop起源开始,介绍了Hadoop的安装和配置,并对Hadoop的组件分别进行了介绍,包括:HDFS分布式存储系统,MapReduce计算框架,海量数据库HBase,Hive数据仓库,Pig、ZooKeeper管理系统等知识,最后对Hadoop实时数据处理技术作了一简单介绍,旨在让读者了解当前的其它的大数据处理技术。
《Hadoop大数据处理技术基础与实践》目录

第1章Hadoop概述 1

1.1 Hadoop来源和动机 1

1.2 Hadoop体系架构 4

1.3 Hadoop与分布式开发 6

1.4 Hadoop行业应用案例分析 8

1.4.1 Hadoop在门户网站的应用 8

1.4.2 Hadoop在搜索引擎中的应用 9

1.4.3 Hadoop在电商平台中的应用 9

1.5小结 10

习题 10

第2章Hadoop安装与配置管理 11

2.1实验准备 11

2.2配置一个单节点环境 13

2.2.1运行一个虚拟环境CentOS 13

2.2.2配置网络 14

2.2.3创建新的用户组和用户 18

2.2.4上传文件到CentOS并配置Java和Hadoop环境 20

2.2.5修改Hadoop2.2配置文件 24

2.2.6修改CentOS主机名 28

2.2.7绑定hostname与IP 29

2.2.8关闭防火墙 29

2.3节点之间的免密码通信 30

2.3.1什么是SSH 30

2.3.2复制虚拟机节点 30

2.3.3配置SSH免密码登录 31

2.4 Hadoop的启动和测试 34

2.4.1格式化文件系统 34

2.4.2启动HDFS 34

2.4.3启动Yarn 35

2.4.4管理JobHistory Server 36

2.4.5集群验证 36

2.4.6需要了解的默认配置 37

2.5动态管理节点 38

2.5.1动态增加和删除datanode 38

2.5.2动态修改TaskTracker 39

2.6小结 40

习题 41

第3章HDFS技术 42

3.1 HDFS的特点 42

3.2 HDFS架构 43

3.2.1数据块 44

3.2.2元数据节点与数据节点 45

3.2.3辅助元数据节点 47

3.2.4安全模式 48

3.2.5负载均衡 49

3.2.6垃圾回收 49

3.3 HDFSShell命令 50

3.3.1文件处理命令 50

3.3.2 dfsadmin命令 56

3.3.3 namenode命令 58

3.3.4 fsck命令 58

3.3.5 pipes命令 59

3.3.6 job命令 59

3.4 HDFS中的Java API的使用 60

3.4.1上传文件 62

3.4.2新建文件 63

3.4.3查看文件详细信息 65

3.4.4下载文件 66

3.5 RPC通信 67

3.5.1反射机制 68

3.5.2代理模式与动态代理 71

3.5.3 Hadoop RPC机制与源码分析 74

3.6小结 78

习题 78

第4章MapReduce技术 79

4.1什么是MapReduce 79

4.2 MapReduce编程模型 81

4.2.1 MapReduce编程模型简介 81

4.2.2 MapReduce简单模型 82

4.2.3 MapReduce复杂模型 82

4.2.4 MapReduce编程实例——WordCount 83

4.3 MapReduce数据流 84

4.3.1分片、格式化数据源(InputFonnat) 84

4.3.2 Map过程 86

4.3.3 Shuffle过程 86

4.3.4 Reduce过程 91

4.3.5文件写入(OutputFormat) 92

4.4 MapReduce任务流程 92

4.4.1 MRv2基本组成 92

4.4.2 Yarn基本组成 93

4.4.3任务流程 93

4.5 MapReduce的Streaming和Pipe 94

4.5.1 Hadoop Streaming 95

4.5.2 Hadoop Pipe 96

4.6 MapReduce性能调优 98

4.7 MapReduce实战 100

4.7.1快速入门 100

4.7.2简单使用Eclipse插件 113

4.8小结 122

习题 123

第5章Hadoop I/O操作 124

5.1 HDFS数据完整性 124

5.1.1校验和 125

5.1.2 DataBIockScanner 126

5.2基于文件的数据结构 126

5.2.1 SequenceFile存储 126

5.2.2 MapFile 131

5.2.3 SequenceFile转换为MapFile 135

5.3压缩 136

5.3.1 Codec 136

5.3.2本地库 139

5.3.3如何选择压缩格式 140

5.4序列化 141

5.4.1 Writable接口 142

5.4.2 WritableComparable 143

5.4.3 Hadoop writable基本类型 144

5.4.4自定义writable类型 150

5.5小结 152

习题 152

第6章 海量数据库HBase技术 153

6.1初识HBase 153

6.2 HBase表视图 154

6.2.1概念视图 154

6.2.2物理视图 155

6.3 HBase物理存储模型 156

6.4安装HBase 163

6.4.1 HBase单节点安装 163

6.4.2 HBase伪分布式安装 166

6.4.3 HBase完全分布式安装 167

6.5 HBase Shell 169

6.5.1 general一般操作 172

6.5.2 ddl操作 172

6.5.3 dml操作 175

6.6小结 178

习题 178

第7章ZooKeeper技术 179

7.1分布式协调技术 179

7.2实现者 180

7.3角色 180

7.4 ZooKeeper数据模型 181

7.4.1 Znode 181

7.4.2 ZooKeeper中的时间 182

7.4.3 ZooKeeper节点属性 182

7.4.4 watch触发器 183

7.5 ZooKeeper集群安装 184

7.6 ZooKeeper主要Shell操作 186

7.7典型运用场景 188

7.7.1数据发布与订阅(Data pulica-tion and subscription) 188

7.7.2统一命名服务(Name Service) 189

7.7.3分布通知/协调(Distribution of notification/coordination) 190

7.8小结 191

习题 191

第8章 分布式数据仓库技术Hive 192

8.1 Hive出现原因 193

8.2 Hive服务组成 193

8.3 Hive安装 195

8.3.1 Hive基本安装 195

8.3.2 MySQL安装 195

8.3.3 Hive配置 196

8.4 Hive Shell介绍 199

8.5 HiveQL详解 200

8.5.1 Hive管理数据方式 201

8.5.2 Hive表DDL操作 203

8.5.3 Hive表DML操作 213

8.6小结 217

习题 217

第9章 分布式数据分析工具Pig 218

9.1 Pig的安装和配置 219

9.2 Pig基本概念 219

9.3 Pig保留关键字 221

9.4使用Pig 223

9.4.1 Pig命令行选项 223

9.4.2 Pig的两种运行模式 223

9.4.3 Pig相关Shell命令详解 224

9.4.4 Pig程序运行方式 228

9.4.5 Pig输入与输出 230

9.5模式(schemas) 232

9.6 Pig相关函数详解 240

9.7小结 245

习题 245

第10章Hadoop与RDBMS数据迁移工具Sqoop 246

10.1 Sqoop基本安装 247

10.2 Sqoop配置 247

10.3 Sqoop相关功能 248

10.3.1 sqoop-import操作 251

10.3.2 sqoop-import-all-tables操作 256

10.3.3 sqoop-export操作 258

10.3.4 sqoop-list-databases操作 260

10.3.5 sqoop-list-tables操作 261

10.4 Hive、 Pig和Sqoop三者之间的关系 261

10.5小结 262

习题 262

第11章Hadoop1.x与Hadoop2.x的比较 263

11.1 Hadoop发展历程 263

11.2 Hadoop 1.x与Hadoop 2.x之间的差异 264

11.2.1 Hadoop 1与Hadoop 2体系结构对比 265

11.2.2 Hadoop 1与Hadoop2之间配置差异 266

11.2.3 YARN 267

11.2.4 HDFS联邦机制(Federation) 269

11.3小结 272

习题 272

第12章Hadoop实时数据处理技术 273

12.1 Storm-YARN概述 274

12.1.1 Apache Storm组成结构 274

12.1.2 Storm数据流 274

12.1.3 Storm-YARN产生背景 276

12.1.4 Storm-YARN功能介绍 276

12.2 Apache Spark概述 277

12.2.1 Apache Spark组成结构 277

12.2.2 Apache Spark扩展功能 278

12.3 Storm与Spark的比较 279

12.4小结 279

习题 280

附录A使用Eclipse提交H adoop任务相关错误解决 281

附录B常用Pig内置函数简介 283

返回顶部