自己动手做大数据系统PDF电子书下载
- 电子书积分:10 积分如何计算积分?
- 作 者:张魁,张粤磊,刘未昕,吴茂贵著
- 出 版 社:北京:电子工业出版社
- 出版年份:2016
- ISBN:9787121295867
- 页数:238 页
第1章 为什么要自己动手做大数据系统 1
1.1 大数据时代 1
1.2 实战大数据项目 2
1.3 大数据演练平台 2
第2章 项目背景及准备 4
2.1 项目背景 4
2.2 项目简介 4
2.3 项目架构 4
2.4 操作系统 5
2.5 数据存储 7
2.6 数据处理 8
2.7 开发工具 9
2.8 调试工具 10
2.9 版本管理 10
第3章 大数据环境搭建和配置 11
3.1 各组件功能说明 11
3.1.1 各种数据源的采集工具 12
3.1.2 企业大数据存储工具 12
3.1.3 企业大数据系统的数据仓库工具 12
3.1.4 企业大数据系统的分析计算工具 13
3.1.5 企业大数据系统的数据库工具 13
3.2 大数据系统各组件安装部署配置 13
3.2.1 安装的前期准备工作 13
3.2.2 Hadoop基础环境安装及配置 15
3.2.3 Hive安装及配置 21
3.2.4 Sqoop安装及配置 24
3.2.5 Spark安装及配置 30
3.2.6 Zookeeper安装及配置 31
3.2.7 HBase安装及配置 33
3.3 自动化安装及部署说明 35
3.3.1 自动化安装及部署整体架构设计 35
3.3.2 大数据系统自动化部署逻辑调用关系 36
3.4 本章小结 43
第4章 大数据的获取 44
4.1 使用爬虫获取互联网数据 45
4.2 Python和Scrapy框架的安装 45
4.3 抓取和解析招聘职位信息 47
4.4 职位信息的落地 51
4.5 两个爬虫配合工作 53
4.6 让爬虫的架构设计更加合理 55
4.7 获取数据的其他方式 57
4.8 使用Sqoop同步论坛中帖子数据 57
4.9 本章小结 59
第5章 大数据的处理 60
5.1 Hive是什么 60
5.2 为什么使用Hive做数据仓库建模 60
5.3 飞谷项目中Hive建模步骤 61
5.3.1 逻辑模型的创建 62
5.3.2 物理模型的创建 67
5.3.3 将爬虫数据导入stg_job表 74
5.4 使用Hive进行数据清洗转换 77
5.5 数据清洗转换的必要性 78
5.6 使用HiveQL清洗数据、提取维度信息 79
5.6.1 使用HQL清洗数据 79
5.6.2 提取维度信息 82
5.7 定义Hive UDF封装处理逻辑 85
5.7.1 Hive UDF的开发、部署和调用 86
5.7.2 Python版本的UDF 89
5.8 使用左外连接构造聚合表rpt_job 92
5.9 让数据处理自动调度 96
5.9.1 HQL的几种执行方式 96
5.9.2 Hive Thrift服务 99
5.9.3 使用JDBC连接Hive 100
5.9.4 Python调用HiveServer服务 103
5.9.5 用crontab实现的任务调度 105
5.10 本章小结 107
第6章 大数据的存储 108
6.1 NoSQL及HBase简介 108
6.2 HBase中的主要概念 110
6.3 HBase客户端及JavaAPI 111
6.4 Hive数据导入 HBase的两种方案 114
6.4.1 利用既有的JAR包实现整合 114
6.4.2 手动编写MapReduce程序 116
6.5 使用Java API查询HBase中的职位信息 122
6.5.1 为什么是HBase而非Hive 122
6.5.2 多条件组合查询HBase中的职位信息 123
6.6 如何显示职位表中的某条具体信息 132
6.7 本章小结 133
第7章 大数据的展示 134
7.1 概述 134
7.2 数据分析的一般步骤 135
7.3 用R来做数据分析展示 135
7.3.1 在Ubuntu上安装R 135
7.3.2 R的基本使用方式 137
7.4 用Hive充当R的数据来源 139
7.4.1 RHive组件 139
7.4.2 把R图表整合到Web页面中 145
7.5 本章小结 151
第8章 大数据的分析挖掘 152
8.1 基于Spark的数据挖掘技术 152
8.2 Spark和Hadoop的关系 153
8.3 在Ubuntu上安装Spark集群 154
8.3.1 JDK和Hadoop的安装 154
8.3.2 安装Scala 154
8.3.3 安装Spark 155
8.4 Spark的运行方式 157
8.5 使用Spark替代Hadoop Yarn引擎 160
8.5.1 使用spark-sql查看Hive表 160
8.5.2 在beeline客户端使用Spark引擎 161
8.5.3 在Java代码中引用Spark的ThriftServer 163
8.6 对招聘公司名称做全文检索 168
8.6.1 从HDFS数据源构造JavaRDD 169
8.6.2 使用Spark SQL操作RDD 173
8.6.3 把RDD运行结果展现在前端 174
8.7 如何把Spark用得更好 175
8.8 SparkR组件的使用 177
8.8.1 SparkR的安装及启动 177
8.8.2 运行自带的Sample例子 179
8.8.3 利用SparkR生成职位统计饼图 179
8.9 本章小结 181
第9章 自己动手搭建支撑大数据系统的云平台 182
9.1 云平台架构 182
9.1.1 一期云基础平台架构 182
9.1.2 二期云基础平台架构 184
9.2 云平台搭建及部署 185
9.2.1 安装组件前准备 185
9.2.2 Identity(Keystone)组件 190
9.2.3 Image(Glance)组件 198
9.2.4 Compute(Nova)组件 201
9.2.5 Storage(Cinder)组件 206
9.2.6 Networking(Neutron)组件 210
9.2.7 Ceph分布式存储系统 221
9.2.8 Dashboard(Horizon)组件 230
9.3 Identity(Keystone)与LDAP的整合 232
9.4 配置Image组件大镜像部署 235
9.5 配置业务系统无缝迁移 236
9.6 本章小结 237
参考文献 238
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《管理信息系统习题集》郭晓军 2016
- 《信息系统安全技术管理策略 信息安全经济学视角》赵柳榕著 2020
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《系统解剖学速记》阿虎医考研究组编 2019
- 《慢性呼吸系统疾病物理治疗工作手册》(荷)瑞克·考斯林克(RikGosselink) 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《社会文化系统中的翻译》姜秋霞,杨正军 2019
- 《如烟往事 如火青春》刘未鸣,韩淑芳主编 2019
- 《金乡》哲贵著 2020
- 《新中国往事 圆梦民生》刘未鸣,张剑荆策划主编 2019
- 《新中国往事 历史发现》殷旭责任编辑;(中国)刘未鸣,张剑荆 2019
- 《字里行间》王兆贵著 2019
- 《自由与国家的冲突》谭杰,李先敏,毛兴贵著 2016
- 《苦乐年华》李景贵著 2019
- 《走向心富 宋生贵散文随笔选》宋生贵著 2013
- 《翩翩神舟我领航 一位神舟飞船专家的故事》陈祖贵著 2012
- 《国进民退之争》陈秋贵著 2013
- 《电子测量与仪器》人力资源和社会保障部教材办公室组织编写 2009
- 《少儿电子琴入门教程 双色图解版》灌木文化 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《通信电子电路原理及仿真设计》叶建芳 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《电子应用技术项目教程 第3版》王彰云 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017