1大数据概论 1
1.1大数据概述 1
1.2Hadoop生态系统 6
1.3大数据处理工具 8
1.4大数据与云计算的关系 13
1.5分布式与集群 14
2大数据平台Hadoop 16
2.1Hadoop架构 16
2.2Hadoop1.x与Hadoop2.x的区别 18
2.3Hadoop平台搭建 18
3分布式文件系统HDFS 30
3.1HDFS架构 30
3.2HDFS读写过程解析 37
3.3HDFS shell命令 40
3.4HDFS Java API编程 42
4分布式计算模型MapReduce 57
4.1MapReduce编程模型 57
4.2MapReduce工作原理 60
4.3Yarn 63
4.4MapReduce可编程组件 66
4.5MapReduce Java API编程 68
5分布式数据库HBase 95
5.1HBase介绍 95
5.2HBase数据模型 97
5.3HBase系统架构 99
5.4HBase数据读写流程 101
5.5HRegion的split和compact 102
5.6HBase环境搭建 103
5.7HBase shell 108
5.8HBase Java API 112
6分布式数据库仓库Hive 136
6.1Hive简介 136
6.2Hive与HBase,关系型数据库的对比 138
6.3Hive的数据管理 139
6.4Hive的体系架构 140
6.5Hive的执行流程 142
6.6HQL 142
6.7Hive环境搭建 145
6.8Hive Java API 152
6.9Hive综合案例 157
7Scala编程基础 165
7.1Scala简介 165
7.2Scala安装 167
7.2Scala语法 168
7.3Scala程序控制结构 179
7.4Scala容器 183
7.5cala函数 198
7.6面向对象编程 207
8分布式计算框架Spark 229
8.1Spark概述 229
8.2Spark运行原理 232
8.3Spark环境搭建 236
8.4RDD编程 239
8.5数据读写操作 248
8.6Spark SQL 255
8.7Spark Streaming 267
8.8Spark远程开发及提交 271