《大数据Hadoop 3.X分布式处理实战》PDF下载

  • 购买积分:13 如何计算积分?
  • 作  者:吴章勇,杨强
  • 出 版 社:北京:人民邮电出版社
  • 出版年份:2020
  • ISBN:9787115524669
  • 页数:370 页
图书介绍:

第一篇 Hadoop技术 3

第1章 大数据与Hadoop概述 3

1.1大数据概述 3

1.1.1大数据的定义 3

1.1.2大数据行业的发展 4

1.1.3大数据的典型应用 4

1.2 Hadoop概述 6

1.2.1Hadoop简介 6

1.2.2Hadoop生态子项目 7

1.2.3 Hadoop 3.X的新特性 9

1.3小结 9

1.4配套视频 10

第2章 Hadoop伪分布式安装 11

2.1 Hadoop伪分布式安装前的准备 11

2.1.1安装VMware 11

2.1.2安装CentOS 7 12

2.1.3配置CentOS 7:接受协议 15

2.1.4配置CentOS 7:登录系统 16

2.1.5配置CentOS 7:设置IP 16

2.1.6配置CentOS 7:修改主机名 17

2.1.7配置CentOS 7:配置hosts文件 18

2.1.8配置CentOS 7:关闭防火墙 18

2.1.9配置CentOS 7:禁用selinux 19

2.1.10配置CentOS 7:设置SSH免密码登录 19

2.1.11配置CentOS 7:重启 20

2.2 Hadoop伪分布式安装 21

2.2.1安装WinSCP 21

2.2.2安装PieTTY 22

2.2.3安装JDK 23

2.2.4安装Hadoop 24

2.3 Hadoop验证 28

2.3.1格式化 28

2.3.2启动Hadoop 29

2.3.3查看Hadoop相关进程 29

2.3.4浏览文件 30

2.3.5浏览器访问 30

2.4小结 31

2.5配套视频 31

第3章 Hadoop分布式文件系统——HDFS 32

3.1 HDFS原理 32

3.1.1HDFS的假设前提和设计目标 32

3.1.2 HDFS的组件 33

3.1.3 HDFS数据复制 36

3.1.4HDFS健壮性 36

3.1.5 HDFS数据组织 38

3.2 HDFS Shell 39

3.2.1Hadoop文件操作命令 39

3.2.2Hadoop系统管理命令 44

3.3 HDFS Java API 46

3.3.1搭建Linux下Eclipse开发环境 46

3.3.2为Eclipse安装Hadoop插件 47

3.3.3 HDFS Java API示例 49

3.4小结 56

3.5配套视频 56

第4章 分布式计算框架MapReduce 57

4.1 MapReduce原理 57

4.1.1 MapReduce概述 57

4.1.2 MapReduce的主要功能 59

4.1.3 MapReduce的处理流程 59

4.2 MapReduce编程基础 61

4.2.1内置数据类型介绍 61

4.2.2 WordCount入门示例 63

4.2.3 MapReduce分区与自定义数据类型 67

4.3 MapReduce综合实例——数据去重 71

4.3.1实例描述 71

4.3.2设计思路 72

4.3.3程序代码 73

4.3.4运行结果 74

4.4 MapReduce综合实例——数据排序 75

4.4.1实例描述 75

4.4.2设计思路 76

4.4.3程序代码 77

4.4.4运行结果 79

4.5 MapReduce综合实例——求学生平均成绩 79

4.5.1实例描述 79

4.5.2设计思路 80

4.5.3程序代码 81

4.5.4运行结果 83

4.6 MapReduce综合实例——WordCount高级示例 84

4.7小结 87

4.8配套视频 87

第二篇 Hadoop生态系统的主要大数据工具整合应用 91

第5章 NoSQL数据库HBase 91

5.1 HBase原理 91

5.1.1 HBase概述 91

5.1.2 HBase核心概念 92

5.1.3 HBase的关键流程 95

5.2 HBase伪分布式安装 97

5.2.1安装HBase的前提条件 98

5.2.2解压并配置环境变量 98

5.2.3配置HBase参数 99

5.2.4验证HBase 100

5.3 HBase Shell 103

5.3.1 HBase ShelL常用命令 103

5.3.2HBase Shell综合示例 109

5.3.3 HBase Shell的全部命令 112

5.4小结 114

5.5配套视频 114

第6章 HBase高级特性 115

6.1 HBase Java API 115

6.1.1 HBase Java API介绍 115

6.1.2 HBase Java API示例 120

6.2 HBase与MapReduce的整合 130

6.2.1HBase与MapReduce的整合概述 130

6.2.2 HBase与MapReduce的整合示例 130

6.3小结 134

6.4配套视频 134

第7章 分布式数据仓库Hive 135

7.1 Hive概述 135

7.1.1 Hive的定义 135

7.1.2 Hive的设计特征 136

7.1.3 Hive的体系结构 136

7.2 Hive伪分布式安装 137

7.2.1安装Hive的前提条件 137

7.2.2解压并配置环境变量 138

7.2.3安装MySQL 139

7.2.4配置Hive 143

7.2.5验证Hive 145

7.3 Hive QL的基础功能 146

7.3.1操作数据库 146

7.3.2创建表 147

7.3.3数据准备 150

7.4 Hive QL的高级功能 153

7.4.1 select查询 154

7.4.2函数 154

7.4.3统计函数 154

7.4.4 distinct去除重复值 155

7.4.5 limit限制返回记录的条数 156

7.4.6为列名取别名 156

7.4.7 case when then多路分支 156

7.4.8 like模糊查询 157

7.4.9 group by分组统计 157

7.4.10 having过滤分组统计结果 157

7.4.11 inner join内联接 158

7.4.12 left outer join和right outer join外联接 159

7.4.13 full outer join外部联接 159

7.4.14 order by排序 160

7.4.15 where查找 160

7.5小结 161

7.6配套视频 162

第8章 Hive高级特性 163

8.1 Beeline 163

8.1.1使用Beeline的前提条件 163

8.1.2 Beeline的基本操作 164

8.1.3 Beeline的参数选项与管理命令 166

8.2 Hive JDBC 167

8.2.1运行Hive JDBC的前提条件 167

8.2.2 Hive JDBC基础示例 167

8.2.3 Hive JDBC综合示例 169

8.3 Hive函数 174

8.3.1内置函数 174

8.3.2自定义函数 175

8.4 Hive表的高级特性 181

8.4.1外部表 181

8.4.2分区表 182

8.5小结 185

8.6配套视频 185

第9章 数据转换工具Sqoop 186

9.1 Sqoop概述与安装 186

9.1.1Sqoop概述 186

9.1.2 Sqoop安装 187

9.2 Sqoop导入数据 189

9.2.1更改MySQL的root用户密码 189

9.2.2准备数据 190

9.2.3导入数据到HDFS 191

9.2.4查看HDFS数据 192

9.2.5导入数据到Hive 193

9.2.6查看Hive数据 193

9.3 Sqoop导出数据 194

9.3.1准备MySQL表 194

9.3.2导出数据到MySQL 194

9.3.3查看MySQL中的导出数据 195

9.4深入理解Sqoop的导入与导出 196

9.5小结 203

9.6配套视频 203

第10章 内存计算框架Spark 204

10.1 Spark入门 204

10.1.1 Spark概述 204

10.1.2 Spark伪分布式安装 205

10.1.3由Java到Scala 209

10.1.4 Spark的应用 212

10.1.5 Spark入门示例 217

10.2 Spark Streaming 220

10.2.1 Spark Streaming概述 220

10.2.2 Spark Streaming示例 221

10.3 Spark SQL 224

10.3.1 Spark SQL概述 224

10.3.2 spark-sql命令 225

10.3.3使用Scala操作Spark SQL 227

10.4小结 228

10.5配套视频 229

第11章 Hadoop及其常用组件集群安装 230

11.1 Hadoop集群安装 230

11.1.1安装并配置CentOS 230

11.1.2安装JDK 236

11.1.3安装Hadoop 237

11.1.4远程复制文件 241

11.1.5验证Hadoop 242

11.2 HBase集群安装 244

11.2.1解压并配置环境变量 244

11.2.2配置HBase参数 245

11.2.3远程复制文件 246

11.2.4验证HBase 247

11.3 Hive集群安装 249

11.3.1解压并配置环境变量 249

11.3.2安装MySQL 250

11.3.3配置Hive 252

11.3.4验证Hive 254

11.4 Spark集群安装 254

11.4.1安装Scala 254

11.4.2安装Spark 254

11.4.3配置Spark 255

11.4.4远程复制文件 256

11.4.5验证Spark 257

11.5小结 259

11.6配套视频 259

第三篇 实战篇 263

第12章 海量Web日志分析系统 263

12.1案例介绍 263

12.1.1分析Web日志数据的目的 263

12.1.2 Web日志分析的典型应用场景 265

12.1.3日志的不确定性 265

12.2案例分析 266

12.2.1日志分析的KPI 267

12.2.2案例系统结构 267

12.2.3日志分析方法 268

12.3案例实现 273

12.3.1定义日志相关属性字段 273

12.3.2数据合法标识(在分析时是否被过滤) 274

12.3.3解析日志 274

12.3.4日志合法性过滤 275

12.3.5页面访问量统计的实现 276

12.3.6页面独立IP访问量统计的实现 278

12.3.7用户单位时间PV的统计实现 280

12.3.8用户访问设备信息统计的实现 282

12.4小结 283

12.5配套视频 283

第13章 电商商品推荐系统 284

13.1案例介绍 284

13.1.1推荐算法 284

13.1.2案例的意义 285

13.1.3案例需求 285

13.2案例设计 286

13.2.1协同过滤 286

13.2.2基于用户的协同过滤算法 289

13.2.3基于物品的协同过滤算法 292

13.2.4算法实现设计 295

13.2.5推荐步骤与架构设计 298

13.3案例实现 298

13.3.1实现HDFS文件操作工具 299

13.3.2实现任务步骤1:汇总用户对所有物品的评分信息 302

13.3.3实现任务步骤2:获取物品同现矩阵 305

13.3.4实现任务步骤3:合并同现矩阵和评分矩阵 307

13.3.5实现任务步骤4:计算推荐结果 310

13.3.6实现统一的任务调度 316

13.4小结 317

13.5配套视频 317

第14章 分布式垃圾消息识别系统 318

14.1案例介绍 318

14.1.1案例内容 318

14.1.2案例应用的主体结构 319

14.1.3案例运行结果 321

14.2 RPC远程方法调用的设计 322

14.2.1 Java EE的核心优势:RMI 322

14.2.2 RMI的基本原理 324

14.2.3自定义RPC组件分析 325

14.3数据分析设计 328

14.3.1垃圾消息识别算法——朴素贝叶斯算法 328

14.3.2进行分布式贝叶斯分类学习时的全局计数器 330

14.3.3数据清洗分析结果存储 332

14.4案例实现 333

14.4.1自定义的RPC组件服务端相关实现 333

14.4.2自定义的RPC组件客户端相关实现 342

14.4.3业务服务器实现 347

14.4.4业务客户端实现 367

14.5小结 370

14.6配套视频 370