Hive实战PDF电子书下载
- 电子书积分:10 积分如何计算积分?
- 作 者:(美)斯科特·肖,(南非)安德烈亚斯·弗朗索瓦·弗穆尔恩
- 出 版 社:北京:人民邮电出版社
- 出版年份:2018
- ISBN:9787115493910
- 页数:238 页
第1章 为Hive打好基础:Hadoop 1
1.1 一只小象出生了 2
1.2 Hadoop的结构 3
1.3 数据冗余 6
1.3.1 传统的高可用性 6
1.3.2 Hadoop的高可用性 9
1.4 MapReduce处理 12
1.4.1 超越MapReduce 16
1.4.2 YARN和现代数据架构 17
1.4.3 Hadoop和开源社区 19
1.4.4 我们身在何处 22
第2章 Hive简介 24
2.1 Hadoop发行版 25
2.2 集群架构 27
2.3 Hive的安装 30
2.4 探寻你的方式 32
2.5 Hive CLI 35
第3章 Hive架构 37
3.1 Hive组件 37
3.2 HCatalog 38
3.3 HiveServer2 40
3.4 客户端工具 42
3.5 执行引擎:Tez 46
第4章 Hive表D D L 48
4.1 schema-on-read 48
4.2 Hive数据模型 49
4.2.1 模式/数据库 49
4.2.2 为什么使用多个模式/数据库 49
4.2.3 创建数据库 49
4.2.4 更改数据库 50
4.2.5 删除数据库 50
4.2.6 列出数据库 51
4.3 Hive中的数据类型 51
4.3.1 基本数据类型 51
4.3.2 选择数据类型 51
4.3.3 复杂数据类型 52
4.4 表 53
4.4.1 创建表 53
4.4.2 列出表 54
4.4.3 内部表/外部表 54
4.4.4 内部表/受控表 55
4.4.5 内部表/外部表示例 55
4.4.6 表的属性 59
4.4.7 生成已有表的CREATE TABLE命令 60
4.4.8 分区和分桶 61
4.4.9 分区注意事项 63
4.4.10 对日期列进行高效分区 63
4.4.11 分桶的注意事项 65
4.4.12 更改表 66
4.4.13 ORC文件格式 67
4.4.14 更改表分区 68
4.4.15 修改列 72
4.4.16 删除表/分区 72
4.4.17 保护表/分区 73
4.4.18 其他CREATE TABLE命令选项 73
第5章 数据操作语言 75
5.1 将数据装载到表中 75
5.1.1 使用存储在HDFS中的文件装载数据 75
5.1.2 使用查询装载数据 77
5.1.3 将查询到的数据写入文件系统 80
5.1.4 直接向表插入值 81
5.1.5 直接更新表中数据 83
5.1.6 在表中直接删除数据 84
5.1.7 创建结构相同的表 85
5.2 连接 86
5.2.1 使用等值连接来整合表 86
5.2.2 使用外连接 87
5.2.3 使用左半连接 89
5.2.4 用单次MapReduce实现连接 90
5.2.5 最后使用最大的表 91
5.2.6 事务处理 92
5.2.7 ACID是什么,以及为什么要用到它 92
5.2.8 Hive配置 92
第6章 将数据装载到Hive 94
6.1 装载数据之前的设计注意事项 94
6.2 将数据装载到HDFS 95
6.2.1 Ambari文件视图 95
6.2.2 Hadoop命令行 97
6.2.3 HDFS的NFS Gateway 97
6.2.4 Sqoop 98
6.2.5 Apache NiFi 101
6.3 用Hive访问数据 105
6.3.1 外部表 105
6.3.2 LOAD DATA语句 106
6.4 在Hive中装载增量变更数据 107
6.5 Hive流处理 107
6.6 小结 108
第7章 查询半结构化数据 109
7.1 点击流数据 111
7.1.1 摄取数据 113
7.1.2 创建模式 116
7.1.3 装载数据 116
7.1.4 查询数据 116
7.2 摄取JSON数据 119
7.2.1 使用UDF查询JSON 121
7.2.2 使用SerDe访问JSON 122
第8章 Hive分析 125
8.1 构建分析模型 125
8.1.1 使用太阳模型获取需求 125
8.1.2 将太阳模型转换为星型模式 129
8.1.3 构建数据仓库 137
8.2 评估分析模型 140
8.2.1 评估太阳模型 140
8.2.2 评估聚合结果 142
8.2.3 评估数据集市 143
8.3 掌握数据仓库管理 144
8.3.1 必备条件 144
8.3.2 检索数据库 144
8.3.3 评估数据库 147
8.3.4 过程数据库 160
8.3.5 转换数据库 185
8.3.6 你掌握了什么 192
8.3.7 组织数据库 192
8.3.8 报表数据库 196
8.3.9 示例报表 197
8.4 高级分析 199
8.5 接下来学什么 199
第9章 Hive性能调优 200
9.1 Hive性能检查表 200
9.2 执行引擎 201
9.2.1 MapReduce 201
9.2.2 Tez 201
9.3 存储格式 203
9.3.1 ORC格式 203
9.3.2 Parquet格式 205
9.4 矢量化查询执行 206
9.5 查询执行计划 206
9.5.1 基于代价的优化 208
9.5.2 执行计划 210
9.5.3 性能检查表小结 212
第10章 Hive的安全性 213
10.1 数据安全性的几个方面 213
10.1.1 身份认证 214
10.1.2 授权 214
10.1.3 管理 214
10.1.4 审计 214
10.1.5 数据保护 214
10.2 Hadoop的安全性 215
10.3 Hive的安全性 215
10.3.1 默认授权模式 215
10.3.2 基于存储的授权模式 216
10.3.3 基于SQL标准的授权模式 217
10.3.4 管理通过SQL进行的访问 218
10.4 使用Ranger进行Hive授权 219
10.4.1 访问Ranger用户界面 220
10.4.2 创建Ranger策略 220
10.4.3 使用Ranger审计 222
第11章 Hive的未来 224
11.1 LLAP 224
11.2 Hive-on-Spark 225
11.3 Hive: ACID和MERGE 225
11.4 可调隔离等级 225
11.5 ROLAP/基于立方体的分析 226
11.6 HiveServer2的发展 226
11.7 面向不同工作负载的多个HiveServer2实例 226
附录A 建立大数据团队 227
附录B Hive函数 231
- 《Maya 2018完全实战技术手册》来阳编著 2019
- 《Python3从入门到实战》董洪伟 2019
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《星空摄影后期实战》阿五在路上著 2020
- 《半小时漫画股票实战法》财经杂质著 2019
- 《深度学习与飞桨PaddlePaddle Fluid实战》于祥 2019
- 《数字插画实战 人像创作30例》王鲁光著 2019
- 《2017国家执业药师资格考试 全考点实战通关必备 中药学综合知识与技能 第3版》国家执业药师资格考试命题研究专家组 2017
- 《微软Azure实战参考》李竞,陈勇华编著 2019
- 《Cocos Creator微信小游戏开发实战》王绍明编著 2020
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《魔法销售台词》(美)埃尔默·惠勒著 2019
- 《看漫画学钢琴 技巧 3》高宁译;(日)川崎美雪 2019
- 《优势谈判 15周年经典版》(美)罗杰·道森 2018
- 《社会学与人类生活 社会问题解析 第11版》(美)James M. Henslin(詹姆斯·M. 汉斯林) 2019
- 《海明威书信集:1917-1961 下》(美)海明威(Ernest Hemingway)著;潘小松译 2019
- 《迁徙 默温自选诗集 上》(美)W.S.默温著;伽禾译 2020
- 《梵蒂冈地窖》(法)安德烈·纪德著 2018
- 《上帝的孤独者 下 托马斯·沃尔夫短篇小说集》(美)托马斯·沃尔夫著;刘积源译 2017
- 《巴黎永远没个完》(美)海明威著 2017
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《办好人民满意的教育 全国教育满意度调查报告》(中国)中国教育科学研究院 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《人民院士》吴娜著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《中国人民的心》杨朔著;夕琳编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中华人民共和国成立70周年优秀文学作品精选 短篇小说卷 上 全2册》贺邵俊主编 2019
- 《指向核心素养 北京十一学校名师教学设计 数学 九年级 上 配人教版》周志英总主编 2019
- 《中华人民共和国成立70周年优秀文学作品精选 中篇小说卷 下 全3册》洪治纲主编 2019