《实战Hadoop大数据处理》PDF下载

  • 购买积分:11 如何计算积分?
  • 作  者:曾刚编著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2015
  • ISBN:7302411444
  • 页数:266 页
图书介绍:

第1章 大数据概述 1

1.1 大数据简介 1

1.1.1 大数据的概念与特点 2

1.1.2 大数据研究的背景 4

1.1.3 大数据的应用示例 5

1.1.4 大数据研究的意义 6

1.2 大数据处理技术简介 6

1.2.1 大数据的关键技术 6

1.2.2 大数据处理模式及其系统 9

1.3 大数据带来的挑战 13

1.4 大数据的研究与发展方向 14

第2章 Hadoop简介 16

2.1 Hadoop项目起源 17

2.2 Hadoop的由来 19

2.3 Hadoop核心组件及相关项目简介 21

2.4 Hadoop的版本衍化 26

2.5 Hadoop的发展趋势 26

第3章 Hadoop的安装 28

3.1 安装Ubuntu Server 28

3.1.1 VMware网络适配器的连接模式 28

3.1.2 “仅主机模式”网络的设置 29

3.1.3 安装Ubuntu Server 31

3.1.4 远程管理Ubuntu Server 37

3.1.5 安装JDK 39

3.1.6 克隆其他虚拟机 41

3.1.7 配置hosts文件 43

3.2 配置SSH公钥认证 43

3.2.1 为什么要公钥认证 43

3.2.2 公钥认证的工作原理 44

3.2.3 SSH客户端的安装 44

3.2.4 SSH配置 45

3.2.5 配置SecureCRT公钥登录Linux服务器 47

3.3 安装配置Hadoop 49

3.3.1 单机安装 50

3.3.2 伪分布模式的安装 51

3.3.3 分布式安装 53

3.3.4 Hadoop管理员常用命令 58

3.4 双NameNode分布式安装Hadoop 2.2.0 63

3.4.1 安装配置Zookeeper集群 64

3.4.2 安装Hadoop 2.2.0 65

第4章 HDFS文件系统 71

4.1 互联网时代对存储系统的新要求 71

4.2 HDFS系统的特点 72

4.3 HDFS文件系统 73

4.3.1 HDFS系统组成 73

4.3.2 HDFS文件数据的存储组织 75

4.3.3 元数据及其备份机制 77

4.3.4 数据块备份 79

4.3.5 数据的读取过程 80

4.3.6 数据的写入过程 81

4.4 HDFS Shell命令 82

4.5 API访问HDFS 88

4.5.1 编译Hadoop的Eclipse插件 88

4.5.2 在Eclipse中安装Hadoop插件 90

4.5.3 Hadoop URL读取数据 92

4.5.4 FileSystem类 93

4.5.5 取得HDFS的元信息 97

4.6 HDFS的高可用性 99

4.6.1 元数据的备份 99

4.6.2 使用SecondaryName进行备份 100

4.6.3 BackupNode备份 100

4.6.4 Hadoop 2.X中HDFS的高可用性实现原理 100

4.6.5 Federation机制 101

4.7 HDFS中小文件存储问题 105

4.7.1 文件归档技术 105

4.7.2 SequenceFile格式 108

4.7.3 CombineFileInputFormat 108

第5章 MapReduce原理及开发 110

5.1 初识MapReduce 110

5.1.1 试用WordCount 110

5.1.2 自己编写WordCount 111

5.1.3 WordCount处理过程 118

5.2 MapReduce工作原理 119

5.2.1 MapReduce数据处理过程 119

5.2.2 MapReduce框架组成 120

5.2.3 MapReduce运行原理 121

5.3 Shuffle和Sort 123

5.3.1 Map端的Shuffle 124

5.3.2 Reduce端Shuffle 126

5.3.3 Shuffle过程优化 127

5.4 任务的执行 128

5.4.1 推测执行 128

5.4.2 任务JVM重用 129

5.4.3 跳过坏的记录 129

5.4.4 任务执行的信息 129

5.5 故障处理 130

5.5.1 任务失败 130

5.5.2 TaskTracker失败 130

5.5.3 JobTracker失败 130

5.5.4 任务失败重试的处理方法 130

5.6 作业调度 131

5.6.1 先进先出(FIFO)调度器 131

5.6.2 能力调度器 132

5.6.3 公平调度器 132

5.7 MapReduce编程接口 132

5.7.1 InputFormat——输入格式类 133

5.7.2 FileInputFormat——文件输入格式类 134

5.7.3 InputSplit——数据分块类 134

5.7.4 RecordReader——记录读取类 135

5.7.5 Mapper类 135

5.7.6 Reducer类 136

5.7.7 OutputFormat——输出格式类 137

5.7.8 FileOutputFormat类——文件输出格式类 138

5.7.9 RecordWriter类——记录输出类 138

5.8 MapReduce应用开发 138

5.8.1 计数类应用 139

5.8.2 去重计数类应用 143

5.8.3 简单排序类应用 145

5.8.4 倒排索引类应用 148

5.8.5 二次排序类应用 154

第6章 HBase数据库 160

6.1 HBase介绍 160

6.1.1 互联网时代对数据库的要求 160

6.1.2 HBase的特点 160

6.2 HBase架构与原理 161

6.2.1 系统的架构及组成 161

6.2.2 HBase逻辑视图 163

6.2.3 HBase的物理模型 164

6.2.4 元数据表 165

6.3 安装HBase 166

6.3.1 单机模式安装 166

6.3.2 伪分布模式安装 168

6.3.3 分布式安装 169

6.4 HBase Shell操作 171

6.4.1 基本Shell命令 171

6.4.2 DDL操作 172

6.4.3 DML操作 174

6.4.4 HBase Shell脚本 176

6.5 基于API使用HBase 176

6.5.1 API简介 177

6.5.2 表操作示例 179

6.5.3 数据操作示例 181

6.5.4 Filter的应用与示例 184

6.6 MapReduce操作HBase数据 191

6.6.1 HBase MapReduce汇总到文件 193

6.6.2 HBase MapReduce汇总到HBase 195

6.7 HBase优化 196

6.7.1 JVM GC优化 196

6.7.2 HBase参数调优 197

6.7.3 表设计优化 199

6.7.4 读优化 200

6.7.5 写优化 201

第7章 Hive数据仓库 202

7.1 Hive简介 202

7.1.1 数据分析工具应具有的特征 202

7.1.2 Pig与Hive的比较 202

7.1.3 Hive架构 203

7.1.4 Hive的元数据存储 205

7.1.5 Hive文件存储格式 206

7.1.6 Hive支持的数据类型 207

7.2 Hive的安装 207

7.2.1 安装MySQL 207

7.2.2 安装Hive 209

7.2.3 Hive的用户接口 211

7.3 Hive QL讲解 214

7.3.1 DDL命令 214

7.3.2 DML操作 219

7.3.3 SELECT查询 222

7.4 Hive复杂类型 228

7.4.1 Array(数组) 228

7.4.2 Map类型 229

7.4.3 Struct类型 229

7.5 Hive函数 230

7.5.1 Hive内置函数 230

7.5.2 Hive用户自定义函数 231

第8章 数据整合 235

8.1 大数据整合问题 235

8.2 Sqoop 1.4X整合工具 236

8.3 Sqoop2整合工具 240

第9章 典型应用案例介绍 245

9.1 大数据在智能交通中的应用 245

9.1.1 交通运输业面临的挑战 245

9.1.2 智能交通大数据平台的架构 247

9.1.3 数据分析层的数据基础分析 248

9.2 大数据在情报分析中的应用 253

9.2.1 公安情报分析的现状 254

9.2.2 大数据情报分析系统架构 254

9.2.3 数据的整合 255

9.2.4 情报分析的方法 256

9.2.5 基于文本的串并案件聚类分析 257

参考文献 264