华为信息与网络技术学院指定教材 大数据原理与技术PDF电子书下载
- 电子书积分:11 积分如何计算积分?
- 作 者:黄史浩编著
- 出 版 社:北京:人民邮电出版社
- 出版年份:2018
- ISBN:9787115458711
- 页数:255 页
第1章 大数据概述 2
1.1大数据的概念与价值 2
1.1.1什么是大数据 2
1.1.2大数据的来源 4
1.1.3大数据有什么价值 5
1.1.4如何挖掘企业大数据的价值 6
1.2大数据的关键技术 7
1.2.1大数据采集、预处理与存储管理 7
1.2.2大数据分析与挖掘 8
1.2.3数据可视化 9
1.3大数据产业 9
1.3.1数据提供 9
1.3.2技术提供 9
1.3.3服务提供 10
1.4大数据应用场景 10
1.5本章总结 11
练习题 12
第2章Hadoop大数据处理平台 14
2.1 Hadoop平台概述 16
2.1.1 Hadoop简介 16
2.1.2 Hadoop的特性 17
2.1.3 Hadoop应用现状 17
2.1.4 Hadoop版本及相关平台 18
2.2 Hadoop生态系统 18
2.2.1 Hadoop存储系统(HDFS&HBase) 18
2.2.2 Hadoop计算框架(MapReduce&YARN) 19
2.2.3 Hadoop数据仓库(Hive) 20
2.2.4 Hadoop数据转换与日志处理(Sqoop&Flume) 20
2.2.5 Hadoop应用协调与工作流(ZooKeeper&Oozie) 20
2.2.6大数据安全技术(Kerberos&LDAP) 21
2.2.7大数据即时查询与搜索(Impala&Solr) 21
2.2.8大数据消息订阅(Kafka) 21
2.3 Hadoop安装部署 22
2.3.1 Hadoop规划部署 22
2.3.2 Hadoop的安装方式 23
2.4华为FusionInsight HD安装部署 26
2.4.1 FusionInsight HD简介 26
2.4.2 FusionInsight HD集成设计 28
2.4.3 FusionInsight HD安装部署 33
2.4.4 FusionInsight HD重要参数配置 41
2.5本章总结 42
练习题 43
第3章 大数据存储技术(HDFS) 44
3.1概述 46
3.1.1分布式文件系统的概念与作用 47
3.1.2 HDFS概述 47
3.2 HDFS的相关概念 48
3.2.1块 48
3.2.2 NameNode 49
3.2.3 Secondary NameNode 50
3.2.4 DataNode 51
3.3 HDFS体系架构与原理 52
3.3.1 HDFS体系架构 52
3.3.2 HDFS的高可用机制 52
3.3.3 HDFS的目录结构 54
3.3.4 HDFS的数据读写过程 57
3.4 HDFS接口及其在FusionInsight HD编程中的实践 58
3.4.1 HDFS常用Shell命令 59
3.4.2 HDFS的Web界面 60
3.4.3 HDFS的Java接口及应用实例 62
3.5本章总结 67
练习题 67
第4章 大数据离线计算框架(MapReduce & YARN) 70
4.1 MapReduce技术原理 72
4.1.1 MapReduce概述 73
4.1.2 Map函数与Reduce函数 73
4.2 YARN技术原理 74
4.2.1 YARN的概述与应用 74
4.2.2 YARN的架构 75
4.2.3 MapReduce的计算过程 76
4.2.4 YARN的资源调度 78
4.3 FusionInsight HD中MapReduce的应用 78
4.3.1 WordCount实例分析 78
4.3.2 MapReduce编程实践 79
4.4本章总结 85
练习题 86
第5章 大数据数据库(HBase) 88
5.1 HBase概述 90
5.1.1 HBase简介 90
5.1.2 HBase与关系型数据库的区别 91
5.1.3 HBase的应用场景 92
5.2 HBase的架构原理 92
5.2.1 HBase的数据模型 92
5.2.2表和Region 93
5.2.3 HBase的系统架构与功能组件 94
5.2.4 HBase的读写流程 96
5.2.5 HBase的Compaction过程 97
5.3 FusionInsight HD中HBase的编程实践 98
5.3.1 FusionInsight HD中HBase的常用参数配置 98
5.3.2 HBase的常用Shell命令 100
5.3.3 HBase常用的Java API及应用实例 103
5.4本章总结 118
练习题 118
第6章 大数据数据仓库(Hive) 120
6.1 Hive概述 122
6.1.1 Hive简介和应用 122
6.1.2 Hive的特性 123
6.1.3 Hive与传统数据仓库的区别 124
6.2 Hive的架构和数据存储 124
6.2.1 Hive的架构原理 124
6.2.2 Hive的数据存储模型 127
6.2.3 HiveQL编程 128
6.3 FusionInsight HD中Hive应用实践 132
6.3.1 FusionInsight HD中Hive的常用参数配置 132
6.3.2加载数据到Hive 133
6.3.3使用HiveQL进行数据分析 135
6.4本章总结 139
练习题 139
第7章 大数据数据转换(Sqoop与Loader) 142
7.1 Sqoop概述 144
7.1.1 Sqoop简介与应用 145
7.1.2 Sqoop的功能与特性 145
7.1.3 Sqoop与传统ETL的区别 146
7.2 FusionInsight HD中Loader的应用实践 146
7.2.1 FusionInsight HD中Loader与Sqoop的对比 147
7.2.2 FusionInsight HD中Loader的参数配置 148
7.2.3使用Loader进行数据转换 149
7.2.4 Loader的常用Shell命令 150
7.2.5 Loader应用实践 152
7.3本章总结 153
练习题 154
第8章 大数据日志处理(Flume) 156
8.1 Flume概述 158
8.1.1 Flume简介与应用 158
8.1.2 Flume的功能与特性 161
8.1.3 Flume与其他主流开源日志收集系统的区别 162
8.2 FusionInsight HD中Flume的应用实践 162
8.2.1 FusionInsight HD中Flume的常用参数配置 163
8.2.2 Flume常用的Shell命令 164
8.2.3 Flume与Kafka结合进行日志处理 165
8.3本章总结 168
练习题 169
第9章 大数据实时计算框架(Spark) 170
9.1 Spark概述 172
9.1.1 Spark的概述与应用 173
9.1.2 Scala语言介绍 174
9.1.3 Spark生态系统组件 174
9.1.4 Spark与Hadoop的对比 175
9.2 Spark技术架构 176
9.2.1 Spark的运行原理 176
9.2.2 RDD概念与原理 177
9.2.3 Spark的三种部署方式 181
9.2.4使用开发工具测试Spark 182
9.3 FusionInsight HD中Spark应用实践 183
9.3.1运行Spark Shell 183
9.3.2进行Spark RDD操作 184
9.3.3使用Spark客户端工具运行Spark程序 185
9.4 Spark Streaming 188
9.4.1 Spark Streaming的设计思想 188
9.4.2 Spark Streaming的应用实例 189
9.5 Spark SQL 191
9.5.1 Spark SQL的功能 191
9.5.2 FusionInsight HD中Spark SQL的应用实例 192
9.6 Spark MLlib 193
9.6.1机器学习简介 193
9.6.2 Spark MLlib的功能 194
9.7 Spark GraphX 194
9.7.1图计算简介 194
9.7.2 Spark GraphX功能简介 195
9.8本章总结 195
练习题 196
第10章 大数据流计算 198
10.1流计算概述 200
10.1.1静态数据和流数据 201
10.1.2流计算的概念 201
10.1.3 MapReduce和流计算 202
10.1.4流计算框架 202
10.2流计算的处理流程 203
10.2.1数据实时采集 203
10.2.2数据实时计算 203
10.2.3数据实时查询 203
10.3 Streaming流计算 204
10.3.1 Streaming简介 204
10.3.2 Streaming的特点 206
10.3.3 Streaming在FusionInsight HD上的应用实践 208
10.3.4 Spark Streaming与Streaming的差异 212
10.4本章总结 213
练习题 213
第11章 数据可视化 216
11.1可视化概述 218
11.1.1数据可视化简介 219
11.1.2数据可视化的重要性 219
11.1.3可视化的发展历程 219
11.1.4数据可视化的过程 221
11.2可视化工具 222
11.2.1入门级工具(Excel) 222
11.2.2普通工具(R语言) 222
11.2.3高级工具(Tableau和Q1ikView) 223
11.3可视化的典型应用 223
11.3.1可视化在医学上的应用 223
11.3.2可视化在工程中的应用 224
11.3.3可视化在互联网的应用 225
11.4本章总结 225
练习题 226
第12章 大数据行业应用 228
12.1大数据在金融行业的应用 230
12.2大数据在电信行业的应用 232
12.3大数据在公安系统的应用 236
12.4大数据在互联网行业的应用 237
12.5本章总结 237
练习题 238
术语表 240
参考文献 252
- 《钒产业技术及应用》高峰,彭清静,华骏主编 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《现代水泥技术发展与应用论文集》天津水泥工业设计研究院有限公司编 2019
- 《异质性条件下技术创新最优市场结构研究 以中国高技术产业为例》千慧雄 2019
- 《Prometheus技术秘笈》百里燊 2019
- 《中国铁路人 第三届现实主义网络文学征文大赛一等奖》恒传录著 2019
- 《中央财政支持提升专业服务产业发展能力项目水利工程专业课程建设成果 设施农业工程技术》赵英编 2018
- 《药剂学实验操作技术》刘芳,高森主编 2019
- 《林下养蜂技术》罗文华,黄勇,刘佳霖主编 2017
- 《脱硝运行技术1000问》朱国宇编 2019
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《流体力学》张扬军,彭杰,诸葛伟林编著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《办好人民满意的教育 全国教育满意度调查报告》(中国)中国教育科学研究院 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《人民院士》吴娜著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《中国人民的心》杨朔著;夕琳编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中华人民共和国成立70周年优秀文学作品精选 短篇小说卷 上 全2册》贺邵俊主编 2019
- 《指向核心素养 北京十一学校名师教学设计 数学 九年级 上 配人教版》周志英总主编 2019
- 《中华人民共和国成立70周年优秀文学作品精选 中篇小说卷 下 全3册》洪治纲主编 2019