Hadoop大数据实战权威指南PDF电子书下载
- 电子书积分:13 积分如何计算积分?
- 作 者:黄东军编著
- 出 版 社:北京:电子工业出版社
- 出版年份:2017
- ISBN:9787121318214
- 页数:362 页
第一篇 大数据的基本概念和技术 3
第1章 绪论 3
1.1时代背景 3
1.1.1全球大数据浪潮 3
1.1.2我国的大数据国家战略 5
1.2大数据的概念 7
1.2.1概念 7
1.2.2特征 8
1.3技术支撑体系 9
1.3.1概览 9
1.3.2大数据采集层 9
1.3.3大数据存储层 10
1.3.4大数据分析(处理与服务)层 11
1.3.5大数据应用层 11
1.3.6垂直视图 13
1.4大数据人才及其能力要求 14
1.4.1首席数据官 14
1.4.2数据科学家(数据分析师) 15
1.4.3大数据开发工程师 16
1.4.4大数据运维工程师 17
1.5本章小结 17
第2章Hadoop大数据关键技术 19
2.1 Hadoop生态系统 19
2.1.1架构的基本理论 19
2.1.2主要组件及其关系 21
2.2数据采集 24
2.2.1结构化数据采集工具 24
2.2.2日志文件采集工具与技术 25
2.3大数据存储技术 29
2.3.1相关概念 29
2.3.2分布式文件存储系统 34
2.3.3数据库与数据仓库 38
2.4分布式计算框架 43
2.4.1离线计算框架 43
2.4.2实时流计算平台 50
2.5数据分析平台与工具 57
2.5.1面向大数据的数据挖掘与分析工具 57
2.5.2机器学习 61
2.6本章小结 66
第二篇Hadoop大数据平台搭建与基本应用 69
第3章Linux操作系统与集群搭建 69
3.1 Linux操作系统 69
3.1.1概述 69
3.1.2特点 70
3.1.3 Linux的组成 72
3.2 Linux安装与集群搭建 75
3.2.1安装VMware Workstation 75
3.2.2在VMware上安装Linux (CentOS7) 79
3.3集群的配置 91
3.3.1设置主机名 91
3.3.2网络设置 93
3.3.3关闭防火墙 98
3.3.4安装JDK 99
3.3.5免密钥登录配置 102
3.4 Linux基本命令 105
3.5本章小结 112
第4章HDFS安装与基本应用 113
4.1 HDFS概述 113
4.1.1特点 113
4.1.2主要组件与架构 114
4.2 HDFS架构分析 114
4.2.1数据块 114
4.2.2 NameNode 115
4.2.3 DataNode 116
4.2.4 Secondary NameNode 117
4.2.5数据备份 117
4.2.6通信协议 118
4.2.7可靠性保证 118
4.3文件操作过程分析 119
4.3.1读文件 119
4.3.2写文件 120
4.3.3删除文件 122
4.4 Hadoop HDFS安装与配置 122
4.4.1解压H adoop安装包 122
4.4.2配置Hadoop环境变量 123
4.4.3配置Yarn环境变量 124
4.4.4配置核心组件文件 125
4.4.5配置文件系统 125
4.4.6配置yarn-site.xml文件 126
4.4.7配置MapReduce计算框架文件 128
4.4.8配置Master的slaves文件 129
4.4.9复制Master上的Hadoop到Slave节点 129
4.5 Hadoop集群的启动 130
4.5.1配置操作系统环境变量 130
4.5.2创建Hadoop数据目录 131
4.5.3格式化文件系统 132
4.5.4启动和关闭Hadoop 133
4.5.5验证Hadoop是否启动成功 133
4.6 Hadoop集群的基本应用 136
4.6.1 HDFS基本命令 136
4.6.2在Hadoop集群中运行程序 139
4.7本章小结 141
第5章MapReduce与Yarn 143
5.1 MapReduce程序的概念 143
5.1.1基本编程模型 143
5.1.2计算过程分析 144
5.2深入理解Yarn 147
5.2.1 Yarn的基本架构 147
5.2.2 Yarn的工作流程 151
5.3在Linux平台安装Eclipse 152
5.3.1 Eclipse简介 153
5.3.2安装并启动Eclipse 154
5.4开发MapReduce程序的基本方法 155
5.4.1为Eclipse安装Hadoop插件 156
5.4.2 WordCount:第一个MapReduce程序 160
5.5本章小结 175
第6章Hive和HBase的安装与应用 177
6.1在CentOS7下安装MySQL 177
6.1.1下载或复制MySQL安装包 177
6.1.2执行安装命令 178
6.1.3启动MySQL 179
6.1.4登录MySQL 179
6.1.5使用MySQL 181
6.1.6问题与解决办法 182
6.2 Hive安装与应用 183
6.2.1下载并解压Hive安装包 183
6.2.2配置Hive 184
6.2.3启动并验证Hive 187
6.2.4 Hive的基本应用 189
6.3 ZooKeeper集群安装 190
6.3.1 ZooKeeper简介 190
6.3.2安装ZooKeeper 191
6.3.3配置ZooKeeper 191
6.3.4启动和测试 193
6.4 HBase的安装与应用 195
6.4.1解压并安装HBase 195
6.4.2配置HBase 196
6.4.3启动并验证HBase 199
6.4.4 HBase的基本应用 200
6.4.5应用HBase中常见问题及其解决办法 203
6.5本章小结 204
第7章Sqoop和Kafka的安装与应用 205
7.1安装部署Sqoop 205
7.1.1下载或复制Sqoop安装包 205
7.1.2解压并安装Sqoop 206
7.1.3配置Sqoop 206
7.1.4启动并验证Sqoop 208
7.1.5测试Sqoop与MySQL的连接 209
7.2安装部署Kafka集群 211
7.2.1下载或复制Kafka安装包 211
7.2.2解压缩Kafka安装包 211
7.2.3配置Kafka集群 211
7.2.4 Kafka的初步应用 213
7.3本章小结 218
第8章Spark集群安装与开发环境配置 219
8.1深入理解Spark 219
8.1.1 Spark系统架构 219
8.1.2关键概念 221
8.2安装与配置Scala 224
8.2.1下载Scala安装包 225
8.2.2安装Scala 225
8.2.3启动并应用Scala 226
8.3 Spark集群的安装与配置 226
8.3.1安装模式 226
8.3.2 Spark的安装 227
8.3.3启动并验证Spark 230
8.3.4几点说明 234
8.4开发环境安装与配置 236
8.4.1 IDEA简介 236
8.4.2 IDEA的安装 236
8.4.3 IDEA的配置 238
8.5本章小结 243
第9章Spark应用基础 245
9.1 Spark程序的运行模式 245
9.1.1 Spark on Yarn-cluster 245
9.1.2 Spark on Yarn-client 246
9.2 Spark应用设计 247
9.2.1分布式估算圆周率 248
9.2.2基于Spark MLlib的贷款风险预测 265
9.3本章小结 285
第三篇 数据处理与项目开发术 289
第10章 交互式数据处理 289
10.1数据预处理 289
10.1.1查看数据 289
10.1.2数据扩展 291
10.1.3数据过滤 292
10.1.4数据上传 293
10.2创建数据仓库 294
10.2.1创建Hive数据仓库的基本命令 294
10.2.2创建Hive分区表 296
10.3数据分析 299
10.3.1基本统计 299
10.3.2用户行为分析 301
10.3.3实时数据 303
10.4本章小结 304
第11章 协同过滤推荐系统 305
11.1推荐算法概述 305
11.1.1基于人口统计学的推荐 305
11.1.2基于内容的推荐 306
11.1.3协同过滤推荐 307
11.2协同过滤推荐算法分析 308
11.2.1基于用户的协同过滤推荐 308
11.2.2基于物品的协同过滤推荐 310
11.3 Spark MLlib推荐算法应用 312
11.3.1 ALS算法原理 312
11.3.2 ALS的应用设计 315
11.4本章小结 329
第12章 销售数据分析系统 331
12.1数据采集 331
12.1.1在Windows下安装JDK 331
12.1.2在Windows下安装Eclipse 334
12.1.3将WebCollector项目导入Eclipse 335
12.1.4在Windows下安装MySQL 336
12.1.5连接JDBC 339
12.1.6运行爬虫程序 340
12.2在HBase集群上准备数据 342
12.2.1将数据导入到MySQL 342
12.2.2将MySQL表中的数据导入到HBase表中 344
12.3安装Phoenix中间件 347
12.3.1 Phoenix架构 347
12.3.2解压安装Phoenix 348
12.3.3 Phoenix环境配置 349
12.3.4使用Phoenix 350
12.4基于Web的前端开发 353
12.4.1将Web前端项目导入Eclipse 353
12.4.2安装Tomcat 355
12.4.3在Eclipse中配置Tomcat 355
12.4.4在Web浏览器中查看执行结果 359
12.5本章小结 361
- 《近代旅游指南汇刊二编 16》王强主编 2017
- 《甘肃省档案馆指南》甘肃省档案馆编 2018
- 《Maya 2018完全实战技术手册》来阳编著 2019
- 《近代旅游指南汇刊 31》王强主编 2014
- 《Python3从入门到实战》董洪伟 2019
- 《近代旅游指南汇刊二编 10》王强主编 2017
- 《手工咖啡 咖啡爱好者的完美冲煮指南》(美国)杰茜卡·伊斯托,安德烈亚斯·威尔霍夫 2019
- 《近代旅游指南汇刊 13》王强主编 2014
- 《近代旅游指南汇刊 28》王强主编 2014
- 《近代旅游指南汇刊 23》王强主编 2014
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《流体力学》张扬军,彭杰,诸葛伟林编著 2019
- 《电子测量与仪器》人力资源和社会保障部教材办公室组织编写 2009
- 《少儿电子琴入门教程 双色图解版》灌木文化 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《通信电子电路原理及仿真设计》叶建芳 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《电子应用技术项目教程 第3版》王彰云 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017