《大数据开发与应用》PDF下载

  • 购买积分:11 如何计算积分?
  • 作  者:青岛英谷教育科技股份有限公司,山东工商学院编著
  • 出 版 社:西安:西安电子科技大学出版社
  • 出版年份:2018
  • ISBN:9787560650159
  • 页数:277 页
图书介绍:本书系统讲解了目前大数据开发领域的主流技术与实用技能,尤其侧重于对Hadoop生态系统的讲解,包括Hadoop框架的运作流程、执行原理及主要成员等内容。本书分别对大数据概论、Hadoop集群环境搭建以及HDFS、MapReduce、ZooKeeper、HBase、Hive、Storm、Sqoop、Kafka、Spark和ElasticSearch的核心知识进行了介绍。

第1章 概论 1

1.1大数据技术简介 2

1.1.1大数据技术的起源 2

1.1.2大数据应用领域 3

1.1.3大数据基础设施 4

1.2大数据技术与大数据开发 6

1.2.1什么是大数据开发 6

1.2.2大数据开发的作用 7

1.2.3大数据开发技术框架 8

1.2.4大数据开发与大数据分析的异同 10

1.3本书中你将学习到的内容 11

本章小结 12

本章练习 12

第2章 Hadoop集群环境搭建 13

2.1Hadoop简介 14

2.1.1Hadoop的优点 14

2.1.2Hadoop生态系统 14

2.2Hadoop集群环境搭建 15

2.2.1修改主机名 15

2.2.2修改主机IP映射 15

2.2.3配置SSH无密码登录 16

2.2.4安装JDK 17

2.2.5安装Hadoop 18

本章小结 21

本章练习 22

第3章 HDFS 23

3.1HDFS的概念 24

3.2HDFS的特点 24

3.3HDFS的原理 25

3.3.1HDFS体系结构 25

3.3.2HDFS主要组件 26

3.4HDFS中的文件读/写 29

3.4.1HDFS读数据 29

3.4.2HDFS写数据 29

3.5HDFS的安全性措施 30

3.6HDFS命令行操作 32

3.7常用HDFS Java API详解 33

3.7.1新建Hadoop项目 33

3.7.2读取数据 34

3.7.3创建目录 35

3.7.4创建文件 35

3.7.5删除文件 36

3.7.6遍历文件和目录 36

3.7.7复制上传本地文件 38

3.7.8复制下载文件 39

本章小结 39

本章练习 40

第4章 MapReduce 41

4.1MapReduce概述 42

4.2MapReduce技术特征 42

4.3MapReduce工作流程 44

4.3.1MapReduce工作原理 44

4.3.2MapReduce任务流程 45

4.4MapReduce工作组件 46

4.5MapReduce错误处理机制 47

4.5.1硬件故障处理 47

4.5.2任务失败处理 48

4.6案例分析一:单词计数 48

4.6.1设计思路 49

4.6.2程序源代码 49

4.6.3程序解读 51

4.6.4程序运行 55

4.7案例分析二:数据去重 57

4.7.1设计思路 58

4.7.2程序源代码 58

4.7.3程序解读 59

4.7.4程序运行 60

本章小结 60

本章练习 60

第5章 ZooKeeper 61

5.1ZooKeeper简介 62

5.1.1主要优势 62

5.1.2总体架构 62

5.1.3应用场景 63

5.2ZooKeeper的特性 64

5.2.1数据模型 64

5.2.2节点类型 65

5.2.3Watcher机制 66

5.2.4分布式锁 67

5.2.5权限控制 69

5.3ZooKeeper问题与应对 69

5.4ZooKeeper安装和配置 70

5.4.1单机模式 70

5.4.2集群模式 71

5.4.3伪分布模式 73

5.5ZooKeeper命令行工具 75

5.6ZooKeeper Java API 77

5.6.1常用接口 77

5.6.2创建节点 78

5.6.3添加数据 79

5.6.4获取数据 79

5.6.5删除节点 81

本章小结 81

本章练习 82

第6章 HBase 83

6.1HBase简介 84

6.2HBase与RDBMS 84

6.3HBase数据结构 85

6.3.1相关概念 86

6.3.2存储特点 87

6.4HBase组成架构 88

6.4.1HMaster 88

6.4.2HRegionServer 89

6.4.3HRegion 89

6.4.4ZooKeeper 90

6.4.5HFile 90

6.4.6HLog 90

6.5HBase表结构 91

6.6HBase集群安装 92

6.6.1单机模式 92

6.6.2伪分布模式 93

6.6.3全分布模式 94

6.7HBase Shell 96

6.8HBase Java API的基本操作 98

6.8.1创建Java工程 98

6.8.2创建表 99

6.8.3添加数据 100

6.8.4查询数据 101

6.8.5删除数据 102

6.9HBase过滤器 102

6.9.1过滤器简介 103

6.9.2行键过滤器 104

6.9.3列族过滤器 104

6.9.4列过滤器 105

6.9.5值过滤器 105

6.9.6单列值过滤器 105

本章小结 106

本章练习 106

第7章 Hive 107

7.1Hive简介 108

7.1.1系统结构和工作方式 108

7.1.2Hive数据模型 110

7.1.3Hive内置服务 111

7.2Hive环境搭建 112

7.3Hive命令行 114

7.3.1Hive CLI交互式命令行 114

7.3.2hive命令 115

7.4HiveQL详解 116

7.4.1DDL操作 116

7.4.2DML操作 128

7.5Hive JDBC 132

7.5.1配置和启动HiveServer2 132

7.5.2JDBC访问Hive 133

7.5.3JDBC示例代码 134

本章小结 138

本章练习 138

第8章 Storm 139

8.1简介 140

8.1.1基础知识 140

8.1.2集群环境搭建 144

8.2Topology入门 146

8.2.1Hello World Topology 146

8.2.2Topology生命周期 154

8.3命令行和UI 156

8.3.1常用命令行简介 157

8.3.2Storm UI简介 159

8.4常用API详解 166

8.4.1TopologyBuilder 167

8.4.2Component 168

本章小结 172

本章练习 172

第9章 Sqoop 173

9.1Sqoop简介 174

9.1.1Sqoop基本架构 174

9.1.2Sqoop实际应用 175

9.2导入/导出工具 175

9.2.1数据导入工具import 176

9.2.2数据导出工具export 177

9.3Sqoop安装与配置 177

9.4案例分析:使用Sqoop进行数据导入/导出 178

9.4.1将MySQL表数据导入到HDFS中 179

9.4.2将HDFS中的数据导出到MySQL中 180

9.4.3将MySQL表数据导入到HBase中 180

本章小结 182

本章练习 182

第10章 Kafka 183

10.1Kafka简介 184

10.1.1基本概念 185

10.1.2集群架构 186

10.1.3主题和分区 186

10.1.4消费者组 187

10.1.5主要特性 188

10.1.6应用场景 189

10.2Kafka集群搭建 190

10.2.1前提条件 190

10.2.2搭建步骤 191

10.3Kafka集群测试 192

10.3.1创建主题 192

10.3.2查询主题 193

10.3.3创建生产者 193

10.3.4创建消费者 193

10.4Kafka Java API 194

10.4.1创建生产者 194

10.4.2创建消费者 196

10.4.3运行程序 198

本章小结 199

本章练习 200

第11章 Spark 201

11.1Spark简介 202

11.1.1Spark基本概念 202

11.1.2Spark的优势 205

11.1.3Spark的核心组件 206

11.1.4Spark应用程序执行流程 207

11.2Spark集群环境搭建 208

11.2.1前提条件 208

11.2.2搭建步骤 209

11.3Spark Shell命令操作 211

11.4Spark编程 214

11.4.1IntelliJ IDEA开发环境搭建 214

11.4.2初始化SparkContext 226

11.4.3向Spark提交应用程序 226

11.4.4RDD编程 229

11.5Spark数据读写 236

11.5.1Spark文件的读取与保存 236

11.5.2文件系统和数据库简介 239

本章小结 239

本章练习 240

第12章 ElasticSearch 241

12.1简介 242

12.1.1ES的起源 242

12.1.2ES的功能特性 242

12.1.3ES的应用场景 243

12.2基础知识 244

12.2.1基本概念 244

12.2.2面向文档 246

12.2.3与ES交互 247

12.3环境搭建 249

12.4RESTful API简介 252

12.4.1集群操作 252

12.4.2文档操作 254

12.4.3数据操作 257

12.5Java API简介 268

12.5.1传输客户端简介 268

12.5.2文档API 269

12.5.3搜索API 274

本章小结 277

本章练习 277