大数据Hadoop 3.X分布式处理实战PDF电子书下载
- 电子书积分:13 积分如何计算积分?
- 作 者:吴章勇,杨强
- 出 版 社:北京:人民邮电出版社
- 出版年份:2020
- ISBN:9787115524669
- 页数:370 页
第一篇 Hadoop技术 3
第1章 大数据与Hadoop概述 3
1.1大数据概述 3
1.1.1大数据的定义 3
1.1.2大数据行业的发展 4
1.1.3大数据的典型应用 4
1.2 Hadoop概述 6
1.2.1Hadoop简介 6
1.2.2Hadoop生态子项目 7
1.2.3 Hadoop 3.X的新特性 9
1.3小结 9
1.4配套视频 10
第2章 Hadoop伪分布式安装 11
2.1 Hadoop伪分布式安装前的准备 11
2.1.1安装VMware 11
2.1.2安装CentOS 7 12
2.1.3配置CentOS 7:接受协议 15
2.1.4配置CentOS 7:登录系统 16
2.1.5配置CentOS 7:设置IP 16
2.1.6配置CentOS 7:修改主机名 17
2.1.7配置CentOS 7:配置hosts文件 18
2.1.8配置CentOS 7:关闭防火墙 18
2.1.9配置CentOS 7:禁用selinux 19
2.1.10配置CentOS 7:设置SSH免密码登录 19
2.1.11配置CentOS 7:重启 20
2.2 Hadoop伪分布式安装 21
2.2.1安装WinSCP 21
2.2.2安装PieTTY 22
2.2.3安装JDK 23
2.2.4安装Hadoop 24
2.3 Hadoop验证 28
2.3.1格式化 28
2.3.2启动Hadoop 29
2.3.3查看Hadoop相关进程 29
2.3.4浏览文件 30
2.3.5浏览器访问 30
2.4小结 31
2.5配套视频 31
第3章 Hadoop分布式文件系统——HDFS 32
3.1 HDFS原理 32
3.1.1HDFS的假设前提和设计目标 32
3.1.2 HDFS的组件 33
3.1.3 HDFS数据复制 36
3.1.4HDFS健壮性 36
3.1.5 HDFS数据组织 38
3.2 HDFS Shell 39
3.2.1Hadoop文件操作命令 39
3.2.2Hadoop系统管理命令 44
3.3 HDFS Java API 46
3.3.1搭建Linux下Eclipse开发环境 46
3.3.2为Eclipse安装Hadoop插件 47
3.3.3 HDFS Java API示例 49
3.4小结 56
3.5配套视频 56
第4章 分布式计算框架MapReduce 57
4.1 MapReduce原理 57
4.1.1 MapReduce概述 57
4.1.2 MapReduce的主要功能 59
4.1.3 MapReduce的处理流程 59
4.2 MapReduce编程基础 61
4.2.1内置数据类型介绍 61
4.2.2 WordCount入门示例 63
4.2.3 MapReduce分区与自定义数据类型 67
4.3 MapReduce综合实例——数据去重 71
4.3.1实例描述 71
4.3.2设计思路 72
4.3.3程序代码 73
4.3.4运行结果 74
4.4 MapReduce综合实例——数据排序 75
4.4.1实例描述 75
4.4.2设计思路 76
4.4.3程序代码 77
4.4.4运行结果 79
4.5 MapReduce综合实例——求学生平均成绩 79
4.5.1实例描述 79
4.5.2设计思路 80
4.5.3程序代码 81
4.5.4运行结果 83
4.6 MapReduce综合实例——WordCount高级示例 84
4.7小结 87
4.8配套视频 87
第二篇 Hadoop生态系统的主要大数据工具整合应用 91
第5章 NoSQL数据库HBase 91
5.1 HBase原理 91
5.1.1 HBase概述 91
5.1.2 HBase核心概念 92
5.1.3 HBase的关键流程 95
5.2 HBase伪分布式安装 97
5.2.1安装HBase的前提条件 98
5.2.2解压并配置环境变量 98
5.2.3配置HBase参数 99
5.2.4验证HBase 100
5.3 HBase Shell 103
5.3.1 HBase ShelL常用命令 103
5.3.2HBase Shell综合示例 109
5.3.3 HBase Shell的全部命令 112
5.4小结 114
5.5配套视频 114
第6章 HBase高级特性 115
6.1 HBase Java API 115
6.1.1 HBase Java API介绍 115
6.1.2 HBase Java API示例 120
6.2 HBase与MapReduce的整合 130
6.2.1HBase与MapReduce的整合概述 130
6.2.2 HBase与MapReduce的整合示例 130
6.3小结 134
6.4配套视频 134
第7章 分布式数据仓库Hive 135
7.1 Hive概述 135
7.1.1 Hive的定义 135
7.1.2 Hive的设计特征 136
7.1.3 Hive的体系结构 136
7.2 Hive伪分布式安装 137
7.2.1安装Hive的前提条件 137
7.2.2解压并配置环境变量 138
7.2.3安装MySQL 139
7.2.4配置Hive 143
7.2.5验证Hive 145
7.3 Hive QL的基础功能 146
7.3.1操作数据库 146
7.3.2创建表 147
7.3.3数据准备 150
7.4 Hive QL的高级功能 153
7.4.1 select查询 154
7.4.2函数 154
7.4.3统计函数 154
7.4.4 distinct去除重复值 155
7.4.5 limit限制返回记录的条数 156
7.4.6为列名取别名 156
7.4.7 case when then多路分支 156
7.4.8 like模糊查询 157
7.4.9 group by分组统计 157
7.4.10 having过滤分组统计结果 157
7.4.11 inner join内联接 158
7.4.12 left outer join和right outer join外联接 159
7.4.13 full outer join外部联接 159
7.4.14 order by排序 160
7.4.15 where查找 160
7.5小结 161
7.6配套视频 162
第8章 Hive高级特性 163
8.1 Beeline 163
8.1.1使用Beeline的前提条件 163
8.1.2 Beeline的基本操作 164
8.1.3 Beeline的参数选项与管理命令 166
8.2 Hive JDBC 167
8.2.1运行Hive JDBC的前提条件 167
8.2.2 Hive JDBC基础示例 167
8.2.3 Hive JDBC综合示例 169
8.3 Hive函数 174
8.3.1内置函数 174
8.3.2自定义函数 175
8.4 Hive表的高级特性 181
8.4.1外部表 181
8.4.2分区表 182
8.5小结 185
8.6配套视频 185
第9章 数据转换工具Sqoop 186
9.1 Sqoop概述与安装 186
9.1.1Sqoop概述 186
9.1.2 Sqoop安装 187
9.2 Sqoop导入数据 189
9.2.1更改MySQL的root用户密码 189
9.2.2准备数据 190
9.2.3导入数据到HDFS 191
9.2.4查看HDFS数据 192
9.2.5导入数据到Hive 193
9.2.6查看Hive数据 193
9.3 Sqoop导出数据 194
9.3.1准备MySQL表 194
9.3.2导出数据到MySQL 194
9.3.3查看MySQL中的导出数据 195
9.4深入理解Sqoop的导入与导出 196
9.5小结 203
9.6配套视频 203
第10章 内存计算框架Spark 204
10.1 Spark入门 204
10.1.1 Spark概述 204
10.1.2 Spark伪分布式安装 205
10.1.3由Java到Scala 209
10.1.4 Spark的应用 212
10.1.5 Spark入门示例 217
10.2 Spark Streaming 220
10.2.1 Spark Streaming概述 220
10.2.2 Spark Streaming示例 221
10.3 Spark SQL 224
10.3.1 Spark SQL概述 224
10.3.2 spark-sql命令 225
10.3.3使用Scala操作Spark SQL 227
10.4小结 228
10.5配套视频 229
第11章 Hadoop及其常用组件集群安装 230
11.1 Hadoop集群安装 230
11.1.1安装并配置CentOS 230
11.1.2安装JDK 236
11.1.3安装Hadoop 237
11.1.4远程复制文件 241
11.1.5验证Hadoop 242
11.2 HBase集群安装 244
11.2.1解压并配置环境变量 244
11.2.2配置HBase参数 245
11.2.3远程复制文件 246
11.2.4验证HBase 247
11.3 Hive集群安装 249
11.3.1解压并配置环境变量 249
11.3.2安装MySQL 250
11.3.3配置Hive 252
11.3.4验证Hive 254
11.4 Spark集群安装 254
11.4.1安装Scala 254
11.4.2安装Spark 254
11.4.3配置Spark 255
11.4.4远程复制文件 256
11.4.5验证Spark 257
11.5小结 259
11.6配套视频 259
第三篇 实战篇 263
第12章 海量Web日志分析系统 263
12.1案例介绍 263
12.1.1分析Web日志数据的目的 263
12.1.2 Web日志分析的典型应用场景 265
12.1.3日志的不确定性 265
12.2案例分析 266
12.2.1日志分析的KPI 267
12.2.2案例系统结构 267
12.2.3日志分析方法 268
12.3案例实现 273
12.3.1定义日志相关属性字段 273
12.3.2数据合法标识(在分析时是否被过滤) 274
12.3.3解析日志 274
12.3.4日志合法性过滤 275
12.3.5页面访问量统计的实现 276
12.3.6页面独立IP访问量统计的实现 278
12.3.7用户单位时间PV的统计实现 280
12.3.8用户访问设备信息统计的实现 282
12.4小结 283
12.5配套视频 283
第13章 电商商品推荐系统 284
13.1案例介绍 284
13.1.1推荐算法 284
13.1.2案例的意义 285
13.1.3案例需求 285
13.2案例设计 286
13.2.1协同过滤 286
13.2.2基于用户的协同过滤算法 289
13.2.3基于物品的协同过滤算法 292
13.2.4算法实现设计 295
13.2.5推荐步骤与架构设计 298
13.3案例实现 298
13.3.1实现HDFS文件操作工具 299
13.3.2实现任务步骤1:汇总用户对所有物品的评分信息 302
13.3.3实现任务步骤2:获取物品同现矩阵 305
13.3.4实现任务步骤3:合并同现矩阵和评分矩阵 307
13.3.5实现任务步骤4:计算推荐结果 310
13.3.6实现统一的任务调度 316
13.4小结 317
13.5配套视频 317
第14章 分布式垃圾消息识别系统 318
14.1案例介绍 318
14.1.1案例内容 318
14.1.2案例应用的主体结构 319
14.1.3案例运行结果 321
14.2 RPC远程方法调用的设计 322
14.2.1 Java EE的核心优势:RMI 322
14.2.2 RMI的基本原理 324
14.2.3自定义RPC组件分析 325
14.3数据分析设计 328
14.3.1垃圾消息识别算法——朴素贝叶斯算法 328
14.3.2进行分布式贝叶斯分类学习时的全局计数器 330
14.3.3数据清洗分析结果存储 332
14.4案例实现 333
14.4.1自定义的RPC组件服务端相关实现 333
14.4.2自定义的RPC组件客户端相关实现 342
14.4.3业务服务器实现 347
14.4.4业务客户端实现 367
14.5小结 370
14.6配套视频 370
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《Maya 2018完全实战技术手册》来阳编著 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《Python3从入门到实战》董洪伟 2019
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《星空摄影后期实战》阿五在路上著 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《半小时漫画股票实战法》财经杂质著 2019
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《高等教育双机械基础课程系列教材 高等学校教材 机械设计课程设计手册 第5版》吴宗泽,罗圣国,高志,李威 2018
- 《证据》田文芳,王绍昱责编;王原,吴飞翔,金海月 2019
- 《基于MOOC理念的大学英语课程教学研究》吴秋明责编;林正柏 2019
- 《蓝印花布》倪沈键,吴灵姝著 2019
- 《碳资产管理 低碳发展之路任重而道远》吴宏杰编著 2015
- 《政府电子服务能力指数2019》胡广伟,张雪莹,吴新丽 2019
- 《刘民叔医书七种校注 鲁楼医案 神农古本草经 考次汤液经》刘民叔,杨绍伊,杨强 2019
- 《CATIA 软件建模与CAA二次开发》胡毕富,吴约旺 2018
- 《知常》吴克敬 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《办好人民满意的教育 全国教育满意度调查报告》(中国)中国教育科学研究院 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《人民院士》吴娜著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《中国人民的心》杨朔著;夕琳编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中华人民共和国成立70周年优秀文学作品精选 短篇小说卷 上 全2册》贺邵俊主编 2019
- 《指向核心素养 北京十一学校名师教学设计 数学 九年级 上 配人教版》周志英总主编 2019
- 《中华人民共和国成立70周年优秀文学作品精选 中篇小说卷 下 全3册》洪治纲主编 2019