大数据丛书 大数据处理之道PDF电子书下载
- 电子书积分:11 积分如何计算积分?
- 作 者:何金池编著
- 出 版 社:北京:电子工业出版社
- 出版年份:2013
- ISBN:9787121287237
- 页数:270 页
0“疯狂”的大数据 1
0.1 大数据时代 1
0.2 数据就是“金库” 3
0.3 让大数据“活”起来 4
第1篇 Hadoop军营 7
1Hadoop一石激起千层浪 7
1.1 Hadoop诞生——不仅仅是玩具 7
1.2 Hadoop发展——各路英雄集结 8
1.3 Hadoop和它的小伙伴们 10
1.4 Hadoop应用场景 12
1.5 小结 13
2 MapReduce奠定基石 14
2.1 MapReduce设计思想 14
2.2 MapReduce运行机制 19
2.2.1 MapReduce的组成 19
2.2.2 MapReduce作业运行流程 20
2.2.3 JobTracker解剖 26
2.2.4 TaskTracker解剖 34
2.2.5 失败场景分析 42
2.3 MapReduce实例分析 43
2.3.1 运行WordCount程序 44
2.3.2 WordCount源码分析 45
2.4 小结 48
3分布式文件系统 49
3.1 群雄并起的DFS 49
3.2 HDFS文件系统 51
3.2.1 HDFS设计与架构 52
3.2.2 HDFS操作与API 56
3.2.3 HDFS的优点及适用场景 60
3.2.4 HDFS的缺点及改进策略 61
3.3 小结 62
4 Hadoop体系的“四剑客” 63
4.1 数据仓库工具Hive 63
4.1.1 Hive缘起何处 63
4.1.2 Hive和数据库的区别 65
4.1.3 Hive设计思想与架构 66
4.1.4 适用场景 74
4.2 大数据仓库HBase 74
4.2.1 HBase因何而生 74
4.2.2 HBase的设计思想和架构 77
4.2.3 HBase优化技巧 84
4.2.4 HBase和Hive的区别 86
4.3 Pig编程语言 87
4.3.1 Pig的缘由 87
4.3.2 Pig的基本架构 88
4.3.3 Pig与Hive的对比 90
4.3.4 Pig的执行模式 90
4.3.5 Pig Latin语言及其应用 91
4.4 协管员ZooKeeper 96
4.4.1 ZooKeeper是什么 96
4.4.2 ZooKeeper的作用 97
4.4.3 ZooKeeper的架构 98
4.4.4 ZooKeeper的数据模型 100
4.4.5 ZooKeeper的常用接口及操作 102
4.4.6 ZooKeeper的应用场景分析 105
4.5 小结 108
5 Hadoop资源管理与调度 110
5.1 Hadoop调度机制 110
5.1.1 FIFO 111
5.1.2 计算能力调度器 111
5.1.3 公平调度器 113
5.2 Hadoop YARN资源调度 114
5.2.1 YARN产生的背景 114
5.2.2 Hadoop YARN的架构 116
5.2.3 YARN的运作流程 118
5.3 Apache Mesos资源调度 120
5.3.1 Apache Mesos的起因 120
5.3.2 Apache Mesos的架构 121
5.3.3 基于Mesos的Hadoop 123
5.4 Mesos与YARN对比 127
5.5 小结 128
6 Hadoop集群管理之道 129
6.1 Hadoop集群管理与维护 129
6.1.1 Hadoop集群管理 129
6.1.2 Hadoop集群维护 131
6.2 Hadoop集群调优 132
6.2.1 Linux文件系统调优 132
6.2.2 Hadoop通用参数调整 133
6.2.3 HDFS相关配置 133
6.2.4 MapReduce相关配置 134
6.2.5 Map任务相关配置 136
6.2.6 HBase搭建重要的HDFS参数 137
6.3 Hadoop集群监控 137
6.3.1 Apache Ambari监控 137
6.3.2 Ganglia监控Hadoop 138
6.4 小结 138
第2篇 Spark星火燎原 141
7 Spark宝刀出鞘 141
7.1 Spark的历史渊源 141
7.1.1 Spark的诞生 141
7.1.2 Spark的发展 142
7.2 Spark和Hadoop MapReduce对比 143
7.3 Spark的适用场景 145
7.4 Spark的硬件配置 146
7.5 Spark架构 147
7.5.1 Spark生态架构 147
7.5.2 Spark运行架构 149
7.6 小结 151
8 Spark核心RDD 153
8.1 RDD简介 153
8.1.1 什么是RDD 153
8.1.2 为什么需要RDD 154
8.1.3 RDD本体的设计 154
8.1.4 RDD与分布式共享内存 155
8.2 RDD的存储级别 155
8.3 RDD依赖与容错 157
8.3.1 RDD依赖关系 157
8.3.2 RDD容错机制 160
8.4 RDD操作与接口 161
8.4.1 RDD Transformation操作与接口 162
8.4.2 RDD Action操作与接口 164
8.5 RDD编程示例 165
8.6 小结 166
9 Spark运行模式和流程 167
9.1 Spark运行模式 167
9.1.1 Spark的运行模式列表 167
9.1.2 Local模式 168
9.1.3 Standalone模式 169
9.1.4 Spark on Mesos模式 171
9.1.5 Spark on YARN模式 173
9.1.6 Spark on EGO模式 175
9.2 Spark作业流程 177
9.2.1 YARN-Client模式的作业流程 178
9.2.2 YARN-Cluster模式的作业流程 179
9.3 小结 181
10Shark和Spark SQL 183
10.1 从Shark到Spark SQL 183
10.1.1 Shark的撤退是进攻 183
10.1.2 Spark SQL接力 185
10.1.3 Spark SQL与普通SQL的区别 186
10.2 Spark SQL应用架构 187
10.3 Spark SQL之DataFrame 188
10.3.1 什么是DataFrame 188
10.3.2 DataFrame的创建 188
10.3.3 DataFrame的使用 190
10.4 Spark SQL运行过程分析 190
10.5 小结 192
11Spark Streaming流数据处理新贵 193
11.1 Spark Streaming是什么 193
11.2 Spark Streaming的架构 194
11.3 Spark Streaming的操作 195
11.3.1 Spark Streaming的Transformation操作 196
11.3.2 Spark Streaming的Window操作 197
11.3.3 Spark Streaming的Output操作 198
11.4 Spark Streaming性能调优 198
11.5 小结 200
12 Spark GraphX图计算系统 201
12.1 图计算系统 201
12.1.1 图存储模式 202
12.1.2 图计算模式 203
12.2 Spark GraphX的框架 206
12.3 Spark GraphX的存储模式 207
12.4 Spark GraphX的图运算符 208
12.5 小结 211
13 Spark Cluster管理 212
13.1 Spark Cluster部署 212
13.2 Spark Cluster管理与监控 213
13.2.1 内存优化机制 213
13.2.2 Spark日志系统 213
13.3 Spark高可用性 215
13.4 小结 216
第3篇 其他大数据处理技术 218
14专为流数据而生的Storm 218
14.1 Storm起因 218
14.2 Storm的架构与组件 220
14.3 Storm的设计思想 222
14.4 Storm与Spark的区别 224
14.5 Storm的适用场景 225
14.6 Storm的应用 226
14.7 小结 227
15 Dremel和Drill 228
15.1 Dremel和Drill的历史背景 228
15.2 Dremel的原理与应用 230
15.3 Drill的架构与流程 232
15.4 Dremel和Drill的适用场景与应用 234
15.5 小结 234
第4篇 大数据下的日志分析系统 236
16日志分析解决方案 236
16.1 百花齐放的日志处理技术 236
16.2 日志处理方案ELK 238
16.2.1 ELK的三大金刚 238
16.2.2 ELK的架构 240
16.2.3 ELK的组网形式 242
16.3 Logstash日志收集解析 245
16.3.1 Input Plugins及应用示例 246
16.3.2 Filter Plugins及应用示例 248
16.3.3 Output Plugins及应用示例 249
16.4 ElasticSearch存储与搜索 250
16.4.1 ElasticSearch的主要概念 251
16.4.2 ElasticSearch Rest API 252
16.5 Kibana展示 253
16.6 小结 255
17 ELK集群部署与应用 256
17.1 ELK集群部署与优化 256
17.1.1 ELK HA集群部署 256
17.1.2 ElasticSearch优化 257
17.2 如何开发自己的插件 259
17.3 ELK在大数据运维系统中的应用 261
17.4 ELK实战应用 262
17.4.1 ELK监控Spark集群 262
17.4.2 ELK监控系统资源状态 263
17.4.3 ELK辅助日志管理和故障排查 263
17.5 小结 264
第5篇 数据分析技术前景展望 266
18大数据处理的思考与展望 266
18.1 大数据时代的思考 266
18.2 大数据处理技术的发展趋势 267
18.3 小结 270
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《《走近科学》精选丛书 中国UFO悬案调查》郭之文 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《新编历史小丛书 祖逖北伐》何兹全著 2019
- 《国际经典影像诊断学丛书 消化影像诊断学 原著第3版》王振常,蒋涛,李宏军,杨正汉译;(美)迈克尔·P.费德勒 2019
- 《本草古籍辑注丛书 第1辑 《食疗本草》辑校》(唐)孟诜撰;(唐)张鼎增补;尚志钧辑校 2019
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《中国朝鲜族民间故事丛书 阿里郎 朝》李龙得 2019
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《流体力学》张扬军,彭杰,诸葛伟林编著 2019
- 《电子测量与仪器》人力资源和社会保障部教材办公室组织编写 2009
- 《少儿电子琴入门教程 双色图解版》灌木文化 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《通信电子电路原理及仿真设计》叶建芳 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《电子应用技术项目教程 第3版》王彰云 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017