大数据实践PDF电子书下载
- 电子书积分:10 积分如何计算积分?
- 作 者:刘鹏,张燕总主编;袁晓东主编;黄必栋副主编
- 出 版 社:北京:清华大学出版社
- 出版年份:2018
- ISBN:9787302494256
- 页数:222 页
第1章 大数据概述 1
1.1 从数据库到大数据库 1
1.1.1 关系型数据库 1
1.1.2 大数据库 2
1.2 大数据库的类型 4
1.3 大数据库的应用 5
习题1 8
参考文献 8
第2章 Hadoop基础 9
2.1 Hadoop简介 9
2.2 Hadoop部署 14
2.2.1 单节点部署 14
2.2.2 伪分布式部署 18
2.2.3 集群部署 25
2.3 Hadoop常用命令 33
2.3.1 用户命令 33
2.3.2 管理命令 35
2.3.3 启动/关闭命令 36
2.4 HDFS常用命令 38
2.4.1 用户命令 38
2.4.2 管理命令 39
实验1 Hadoop实验 41
习题2 42
参考文献 42
第3章 Hadoop数据库HBase 43
3.1 HBase简介 43
3.1.1 体系架构 43
3.1.2 数据模型 46
3.1.3 主要特性 51
3.2 HBase部署 51
3.2.1 准备工作 51
3.2.2 单节点部署 53
3.2.3 伪分布式部署 55
3.2.4 集群部署 57
3.2.5 版本升级 61
3.3 HBase配置 63
3.3.1 配置文件 63
3.3.2 主要配置项 65
3.3.3 配置建议 69
3.3.4 客户端配置 72
3.4 HBase Shell 72
3.4.1 交互模式 73
3.4.2 非交互模式 82
3.5 HBase模式设计 84
3.5.1 设计准则 84
3.5.2 列族属性 88
3.5.3 表属性 91
3.5.4 设计实例 94
3.6 HBase安全 97
3.6.1 安全访问配置 97
3.6.2 数据访问权限控制 99
实验2 HBase集群搭建 100
习题3 101
参考文献 102
第4章 数据仓库工具Hive 103
4.1 Hive简介 103
4.1.1 工作原理 104
4.1.2 体系架构 104
4.1.3 数据模型 106
4.2 Hive部署 108
4.2.1 Hive部署模式 109
4.2.2 Hive内嵌模式部署 110
4.2.3 Hive本地和远程模式部署 113
4.3 Hive配置 115
4.4 Hive接口 117
4.4.1 Hive Shell接口 117
4.4.2 Hive Web接口 119
4.5 Hive SQL 122
4.5.1 数据类型 122
4.5.2 DDL语句 122
4.5.3 DML语句 137
4.6 Hive操作实例 146
实验3 Hive实验 147
习题4 150
参考文献 150
第5章 内存大数据计算框架Spark 151
5.1 Spark简介 151
5.1.1 Spark概览 151
5.1.2 Spark生态系统BDAS 152
5.1.3 Spark架构与原理 153
5.2 Spark部署 155
5.2.1 准备工作 155
5.2.2 Spark单节点部署 156
5.2.3 Spark集群部署 157
5.3 Spark配置 169
5.3.1 Spark属性 169
5.3.2 环境变量配置 171
5.3.3 日志配置 171
5.3.4 查看配置 172
5.4 Spark RDD 173
5.4.1 RDD特征 174
5.4.2 RDD转换操作 174
5.4.3 RDD依赖 175
5.4.4 RDD行动操作 177
5.5 Spark Shell 177
5.5.1 准备工作 177
5.5.2 启动Spark Shell 178
5.5.3 创建RDD 179
5.5.4 转换RDD 180
5.5.5 执行RDD作业 181
实验4 Spark Standalone集群搭建 184
习题5 185
参考文献 185
第6章 Spark SQL 186
6.1 Spark SQL简介 186
6.1.1 Spark SQL概览 186
6.1.2 Spark SQL特性 188
6.1.3 Spark SQL架构与原理 188
6.1.4 和Hive的兼容性 190
6.1.5 数据类型 191
6.2 分布式SQL引擎 192
6.2.1 Spark SQL配置 192
6.2.2 Spark SQL CLI 195
6.2.3 Thrift JDBC/ODBC Server的搭建与测试 198
6.3 使用DataFrame API处理结构化数据 201
实验5 Thrift JDBC/ODBC Server的搭建与测试 205
习题6 206
参考文献 206
附录A 大数据和人工智能实验环境 208
附录B Hadoop环境要求 218
附录C 名词解释 220
- 《大数据项目管理 从规划到实现》(美)特德·马拉斯卡(Ted Malaska),(美)乔纳森·塞德 2020
- 《翦伯赞全集 第10卷 中外历史年表 主编》翦伯赞著 2008
- 《概率论与数理统计》肖小英,唐宏伟主编;任海平,丁和平副主编 2013
- 《概率论与数理统计》廖飞主编;崔小红,刘海明副主编 2013
- 《概率论与数理统计》严希文主编 2013
- 《概率论与数理统计学习指导》王琼,阮宏顺主编;李军,王世飞,张芳等副主编 2013
- 《城市路网交通拥堵态势监控的理论与方法》胡启洲,叶茂,邓卫著 2013
- 《概率论与数理统计》孟新焕,邰淑彩主编 2014
- 《概率论与数理统计》赵更生,王庆,于丽妮主编 2013
- 《炒期货实战入门 超值视频版》李晓波,周峰编著 2014
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019