《Hadoop与大数据挖掘》PDF下载

  • 购买积分:12 如何计算积分?
  • 作  者:张良均,樊哲,位文超,刘名军等著
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2017
  • ISBN:9787111567875
  • 页数:322 页
图书介绍:这是一本适合教学和零基础自学的Hadoop与大数据挖掘的教程,即便你完全没有Hadoop编程基础和大数据挖掘基础,根据本书中的理论知识和上机实践,也能迅速掌握如何使用Hadoop进行大数据挖掘。全书主要分为两篇:基础篇(1-7章),首先从宏观上介绍了大数据相关概念和技术,然后逐一对Hadoop、Hive、HBase、Pig、Spark、Oozie等一系列大数据技术的概念、原理、架构,以及企业应用方法进行了详细介绍,同时配有大量的案例。掌握了这些内容,就具备了大数据技术的基础;挖掘实战篇(第8章),主要是一个企业级大数据应用项目——电子商务智能推荐系统。通过分析应用背景、构建系统,使读者了解针对系统的每一层应用使用什么大数据技术来解决问题。涉及的流程有数据采集、数据预处理、模型构建等,在每一个流程中会进行大数据相关技术实践,运用实际数据来进行分析,使读者切身感受到利用大数据技术解决问题的魅力。

第一篇 基础篇 2

第1章 浅谈大数据 2

1.1大数据概述 3

1.2大数据平台 4

1.3本章小结 5

第2章 大数据存储与运算利器——Hadoop 6

2.1 Hadoop概述 6

2.1.1 Hadoop简介 6

2.1.2 Hadoop存储——HDFS 8

2.1.3 Hadoop计算——MapReduce 11

2.1.4 Hadoop资源管理——YARN 13

2.1.5 Hadoop生态系统 14

2.2 Hadoop配置及IDE配置 17

2.2.1准备工作 17

2.2.2环境配置 18

2.2.3集群启动关闭与监控 24

2.2.4动手实践:一键式Hadoop集群启动关闭 25

2.2.5动手实践:Hadoop IDE配置 26

2.3 Hadoop集群命令 28

2.3.1 HDFS常用命令hdfs dfs 30

2.3.2动手实践:hdfs dfs命令实战 31

2.3.3 MapReduce常用命令mapred job 32

2.3.4 YARN常用命令yam jar 32

2.3.5动手实践:运行MapReduce任务 33

2.4 Hadoop编程开发 33

2.4.1 HDFS Java API操作 33

2.4.2 MapReduce原理 35

2.4.3动手实践:编写Word Count程序并打包运行 44

2.4.4 MapReduce组件分析与编程实践 46

2.5 K-Means算法原理及HadoopMapReduce实现 53

2.5.1 K-Means算法原理 53

2.5.2动手实践:K-Means算法实现 55

2.5.3 Hadoop K-Means算法实现思路 55

2.5.4 Hadoop K-Means编程实现 57

2.6 TF-IDF算法原理及Hadoop MapReduce实现 67

2.6.1 TF-IDF算法原理 67

2.6.2 Hadoop TF-IDF编程思路 67

2.6.3 Hadoop TF-IDF编程实现 68

2.7本章小结 79

第3章 大数据查询——Hive 81

3.1 Hive概述 81

3.1.1 Hive体系架构 82

3.1.2 Hive数据类型 86

3.1.3 Hive安装 87

3.1.4动手实践:Hive安装配置 91

3.1.5动手实践:HiveQL基础—— SQL 91

3.2 HiveQL语句 93

3.2.1数据库操作 94

3.2.2 Hive表定义 94

3.2.3数据导入 100

3.2.4数据导出 103

3.2.5 HiveQL查询 104

3.3动手实践:基于Hive的学生信息查询 108

3.4基于Hive的航空公司客户价值数据预处理及分析 109

3.4.1背景与挖掘目标 109

3.4.2分析方法与过程 111

3.5本章小结 115

第4章 大数据快速读写——HBase 116

4.1 HBase概述 116

4.2配置HBase集群 118

4.2.1 Zookeeper简介及配置 118

4.2.2配置HBase 121

4.2.3动手实践:HBase安装及运行 122

4.2.4动手实践:ZooKeeper获取HBase状态 122

4.3 HBase原理与架构组件 123

4.3.1 HBase架构与组件 123

4.3.2 HBase数据模型 127

4.3.3读取/写入HBase数据 128

4.3.4 RowKey设计原则 129

4.3.5动手实践:HBase数据模型验证 131

4.4 HBase Shell操作 132

4.4.1 HBase常用Shell命令 132

4.4.2动手实践:HBase Shell操作 136

4.5 Java API &MapReduce与HBase交互 137

4.5.1搭建HBase开发环境 137

4.5.2使用Java API操作HBase表 144

4.5.3动手实践:HBase Java API使用 147

4.5.4 MapReduce与HBase交互 147

4.5.5动手实践:HBase表导入导出 150

4.6基于HBase的冠字号查询系统 151

4.6.1案例背景 151

4.6.2功能指标 151

4.6.3系统设计 152

4.6.4动手实践:构建基于HBase的冠字号查询系统 162

4.7本章小结 175

第5章 大数据处理——Pig 176

5.1 Pig概述 176

5.1.1 Pig Latin简介 177

5.1.2 Pig数据类型 179

5.1.3 Pig与Hive比较 179

5.2配置运行Pig 180

5.2.1 Pig配置 181

5.2.2 Pig运行模式 181

5.3常用Pig Latin操作 182

5.3.1数据加载 182

5.3.2数据存储 184

5.3.3 Pig参数替换 185

5.3.4数据转换 186

5.4综合实践 194

5.4.1动手实践:访问统计信息数据处理 194

5.4.2动手实践:股票交易数据处理 195

5.5本章小结 196

第6章 大数据快速运算与挖掘——Spark 197

6.1 Spark概述 197

6.2 Spark安装集群 199

6.2.1 3种运行模式 199

6.2.2动手实践:配置Spark独立集群 199

6.2.3 3种运行模式实例 201

6.2.4动手实践:Spark Streaming实时日志统计 205

6.2.5动手实践:Spark开发环境——Intellij IDEA配置 207

6.3 Spark架构与核心原理 212

6.3.1 Spark架构 212

6.3.2 RDD原理 213

6.3.3深入理解Spark核心原理 215

6.4 Spark编程技巧 218

6.4.1 Scala基础 218

6.4.2 Spark基础编程 218

6.5如何学习Spark MLlib 225

6.5.1确定应用 227

6.5.2 ALS算法直观描述 228

6.5.3编程实现 229

6.5.4问题解决及模型调优 233

6.6动手实践:基于Spark ALS电影推荐系统 234

6.6.1动手实践:生成算法包 235

6.6.2动手实践:完善推荐系统 239

6.7本章小结 250

第7章 大数据工作流——Oozie 252

7.1 Oozie简介 252

7.2编译配置并运行Oozie 253

7.2.1动手实践:编译Oozie 253

7.2.2动手实践:Oozie Server/client配置 254

7.3 Oozie WorkFlow实践 257

7.3.1定义及提交工作流 257

7.3.2动手实践:MapReduce Work-Flow定义及调度 260

7.3.3动手实践:Pig WorkFlow定义及调度 263

7.3.4动手实践:Hive WorkFlow定义及调度 265

7.3.5动手实践:Spark WorkFlow定义及调度 267

7.3.6动手实践:Spark On Yarn定义及调度 268

7.4 Oozie Coordinator实践 270

7.4.1动手实践:基于时间调度 270

7.4.2动手实践:基于数据有效性调度 273

7.5本章小结 275

第二篇 挖掘实战篇 278

第8章 法律服务大数据智能推荐 278

8.1背景 278

8.2目标 279

8.3系统架构及流程 279

8.4分析过程及实现 281

8.4.1数据传输 281

8.4.2数据传输:动手实践 282

8.4.3数据探索分析 283

8.4.4数据预处理 292

8.4.5模型构建 297

8.5构建法律服务大数据智能推荐系统 313

8.5.1动手实践:构建推荐系统JavaEE 313

8.5.2动手实践:Oozie工作流任务 317

8.6本章小结 322