《Hadoop大数据实战权威指南》PDF下载

  • 购买积分:13 如何计算积分?
  • 作  者:黄东军编著
  • 出 版 社:北京:电子工业出版社
  • 出版年份:2017
  • ISBN:9787121318214
  • 页数:362 页
图书介绍:本书是一本讲解大数据实战的图书,按照“深入分析组件原理、充分展示搭建过程、详细指导应用开发”编写。全书分为三篇,第一篇为大数据的基本概念和技术,主要介绍大数据的背景、发展及关键技术;第二篇为Hadoop大数据平台搭建与基本应用,内容涉及Linux、HDFS、MapReduce、YARN、Hive、HBase、Sqoop、Kafk、Spark等;第三篇为大数据处理与项目开发,包括交互式数据处理、协同过滤推荐系统、销售数据分析系统,并就京东的部分销售数据应用大数据进行处理分析。

第一篇 大数据的基本概念和技术 3

第1章 绪论 3

1.1时代背景 3

1.1.1全球大数据浪潮 3

1.1.2我国的大数据国家战略 5

1.2大数据的概念 7

1.2.1概念 7

1.2.2特征 8

1.3技术支撑体系 9

1.3.1概览 9

1.3.2大数据采集层 9

1.3.3大数据存储层 10

1.3.4大数据分析(处理与服务)层 11

1.3.5大数据应用层 11

1.3.6垂直视图 13

1.4大数据人才及其能力要求 14

1.4.1首席数据官 14

1.4.2数据科学家(数据分析师) 15

1.4.3大数据开发工程师 16

1.4.4大数据运维工程师 17

1.5本章小结 17

第2章Hadoop大数据关键技术 19

2.1 Hadoop生态系统 19

2.1.1架构的基本理论 19

2.1.2主要组件及其关系 21

2.2数据采集 24

2.2.1结构化数据采集工具 24

2.2.2日志文件采集工具与技术 25

2.3大数据存储技术 29

2.3.1相关概念 29

2.3.2分布式文件存储系统 34

2.3.3数据库与数据仓库 38

2.4分布式计算框架 43

2.4.1离线计算框架 43

2.4.2实时流计算平台 50

2.5数据分析平台与工具 57

2.5.1面向大数据的数据挖掘与分析工具 57

2.5.2机器学习 61

2.6本章小结 66

第二篇Hadoop大数据平台搭建与基本应用 69

第3章Linux操作系统与集群搭建 69

3.1 Linux操作系统 69

3.1.1概述 69

3.1.2特点 70

3.1.3 Linux的组成 72

3.2 Linux安装与集群搭建 75

3.2.1安装VMware Workstation 75

3.2.2在VMware上安装Linux (CentOS7) 79

3.3集群的配置 91

3.3.1设置主机名 91

3.3.2网络设置 93

3.3.3关闭防火墙 98

3.3.4安装JDK 99

3.3.5免密钥登录配置 102

3.4 Linux基本命令 105

3.5本章小结 112

第4章HDFS安装与基本应用 113

4.1 HDFS概述 113

4.1.1特点 113

4.1.2主要组件与架构 114

4.2 HDFS架构分析 114

4.2.1数据块 114

4.2.2 NameNode 115

4.2.3 DataNode 116

4.2.4 Secondary NameNode 117

4.2.5数据备份 117

4.2.6通信协议 118

4.2.7可靠性保证 118

4.3文件操作过程分析 119

4.3.1读文件 119

4.3.2写文件 120

4.3.3删除文件 122

4.4 Hadoop HDFS安装与配置 122

4.4.1解压H adoop安装包 122

4.4.2配置Hadoop环境变量 123

4.4.3配置Yarn环境变量 124

4.4.4配置核心组件文件 125

4.4.5配置文件系统 125

4.4.6配置yarn-site.xml文件 126

4.4.7配置MapReduce计算框架文件 128

4.4.8配置Master的slaves文件 129

4.4.9复制Master上的Hadoop到Slave节点 129

4.5 Hadoop集群的启动 130

4.5.1配置操作系统环境变量 130

4.5.2创建Hadoop数据目录 131

4.5.3格式化文件系统 132

4.5.4启动和关闭Hadoop 133

4.5.5验证Hadoop是否启动成功 133

4.6 Hadoop集群的基本应用 136

4.6.1 HDFS基本命令 136

4.6.2在Hadoop集群中运行程序 139

4.7本章小结 141

第5章MapReduce与Yarn 143

5.1 MapReduce程序的概念 143

5.1.1基本编程模型 143

5.1.2计算过程分析 144

5.2深入理解Yarn 147

5.2.1 Yarn的基本架构 147

5.2.2 Yarn的工作流程 151

5.3在Linux平台安装Eclipse 152

5.3.1 Eclipse简介 153

5.3.2安装并启动Eclipse 154

5.4开发MapReduce程序的基本方法 155

5.4.1为Eclipse安装Hadoop插件 156

5.4.2 WordCount:第一个MapReduce程序 160

5.5本章小结 175

第6章Hive和HBase的安装与应用 177

6.1在CentOS7下安装MySQL 177

6.1.1下载或复制MySQL安装包 177

6.1.2执行安装命令 178

6.1.3启动MySQL 179

6.1.4登录MySQL 179

6.1.5使用MySQL 181

6.1.6问题与解决办法 182

6.2 Hive安装与应用 183

6.2.1下载并解压Hive安装包 183

6.2.2配置Hive 184

6.2.3启动并验证Hive 187

6.2.4 Hive的基本应用 189

6.3 ZooKeeper集群安装 190

6.3.1 ZooKeeper简介 190

6.3.2安装ZooKeeper 191

6.3.3配置ZooKeeper 191

6.3.4启动和测试 193

6.4 HBase的安装与应用 195

6.4.1解压并安装HBase 195

6.4.2配置HBase 196

6.4.3启动并验证HBase 199

6.4.4 HBase的基本应用 200

6.4.5应用HBase中常见问题及其解决办法 203

6.5本章小结 204

第7章Sqoop和Kafka的安装与应用 205

7.1安装部署Sqoop 205

7.1.1下载或复制Sqoop安装包 205

7.1.2解压并安装Sqoop 206

7.1.3配置Sqoop 206

7.1.4启动并验证Sqoop 208

7.1.5测试Sqoop与MySQL的连接 209

7.2安装部署Kafka集群 211

7.2.1下载或复制Kafka安装包 211

7.2.2解压缩Kafka安装包 211

7.2.3配置Kafka集群 211

7.2.4 Kafka的初步应用 213

7.3本章小结 218

第8章Spark集群安装与开发环境配置 219

8.1深入理解Spark 219

8.1.1 Spark系统架构 219

8.1.2关键概念 221

8.2安装与配置Scala 224

8.2.1下载Scala安装包 225

8.2.2安装Scala 225

8.2.3启动并应用Scala 226

8.3 Spark集群的安装与配置 226

8.3.1安装模式 226

8.3.2 Spark的安装 227

8.3.3启动并验证Spark 230

8.3.4几点说明 234

8.4开发环境安装与配置 236

8.4.1 IDEA简介 236

8.4.2 IDEA的安装 236

8.4.3 IDEA的配置 238

8.5本章小结 243

第9章Spark应用基础 245

9.1 Spark程序的运行模式 245

9.1.1 Spark on Yarn-cluster 245

9.1.2 Spark on Yarn-client 246

9.2 Spark应用设计 247

9.2.1分布式估算圆周率 248

9.2.2基于Spark MLlib的贷款风险预测 265

9.3本章小结 285

第三篇 数据处理与项目开发术 289

第10章 交互式数据处理 289

10.1数据预处理 289

10.1.1查看数据 289

10.1.2数据扩展 291

10.1.3数据过滤 292

10.1.4数据上传 293

10.2创建数据仓库 294

10.2.1创建Hive数据仓库的基本命令 294

10.2.2创建Hive分区表 296

10.3数据分析 299

10.3.1基本统计 299

10.3.2用户行为分析 301

10.3.3实时数据 303

10.4本章小结 304

第11章 协同过滤推荐系统 305

11.1推荐算法概述 305

11.1.1基于人口统计学的推荐 305

11.1.2基于内容的推荐 306

11.1.3协同过滤推荐 307

11.2协同过滤推荐算法分析 308

11.2.1基于用户的协同过滤推荐 308

11.2.2基于物品的协同过滤推荐 310

11.3 Spark MLlib推荐算法应用 312

11.3.1 ALS算法原理 312

11.3.2 ALS的应用设计 315

11.4本章小结 329

第12章 销售数据分析系统 331

12.1数据采集 331

12.1.1在Windows下安装JDK 331

12.1.2在Windows下安装Eclipse 334

12.1.3将WebCollector项目导入Eclipse 335

12.1.4在Windows下安装MySQL 336

12.1.5连接JDBC 339

12.1.6运行爬虫程序 340

12.2在HBase集群上准备数据 342

12.2.1将数据导入到MySQL 342

12.2.2将MySQL表中的数据导入到HBase表中 344

12.3安装Phoenix中间件 347

12.3.1 Phoenix架构 347

12.3.2解压安装Phoenix 348

12.3.3 Phoenix环境配置 349

12.3.4使用Phoenix 350

12.4基于Web的前端开发 353

12.4.1将Web前端项目导入Eclipse 353

12.4.2安装Tomcat 355

12.4.3在Eclipse中配置Tomcat 355

12.4.4在Web浏览器中查看执行结果 359

12.5本章小结 361