实时大数据分析 基于Storm、Spark技术的实时应用PDF电子书下载
- 电子书积分:10 积分如何计算积分?
- 作 者:(美)SumitGupta,ShilpiSaxena著;张广骏译
- 出 版 社:北京:清华大学出版社
- 出版年份:2018
- ISBN:9787302477280
- 页数:243 页
第1章 大数据技术前景及分析平台 1
1.1大数据的概念 1
1.2大数据的维度范式 2
1.3大数据生态系统 3
1.4大数据基础设施 4
1.5大数据生态系统组件 5
1.5.1构建业务解决方案 8
1.5.2数据集处理 8
1.5.3解决方案实施 8
1.5.4呈现 9
1.6分布式批处理 9
1.7分布式数据库(NoSQL) 13
1.7.1 NoSQL数据库的优势 15
1.7.2选择NoSQL数据库 16
1.8实时处理 16
1.8.1电信或移动通信场景 17
1.8.2运输和物流 17
1.8.3互联的车辆 18
1.8.4金融部门 18
1.9本章小结 18
第2章 熟悉Storm 19
2.1 Storm概述 19
2.2 Storm的发展 20
2.3 Storm的抽象概念 22
2.3.1流 22
2.3.2拓扑 22
2.3.3 Spout 23
2.3.4 Bolt 23
2.3.5任务 24
2.3.6工作者 25
2.4 Storm的架构及其组件 25
2.4.1 Zookeeper集群 25
2.4.2 Storm集群 25
2.5如何以及何时使用Storm 27
2.6 Storm的内部特性 32
2.6.1 Storm的并行性 32
2.6.2 Storm的内部消息处理 34
2.7本章小结 36
第3章用Storm处理数据 37
3.1 Storm输入数据源 37
3.2认识Kafka 38
3.2.1关于Kafka的更多知识 39
3.2.2 Storm的其他输入数据源 43
3.2.3 Kafka作为输入数据源 46
3.3数据处理的可靠性 47
3.3.1锚定的概念和可靠性 49
3.3.2 Storm的acking框架 51
3.4 Storm的简单模式 52
3.4.1联结 52
3.4.2批处理 53
3.5 Storm的持久性 53
3.6本章小结 58
第4章Trident概述和Storm性能优化 59
4.1使用Trident 59
4.1.1事务 60
4.1.2 Trident拓扑 60
4.1.3 Trident操作 61
4.2理解LMAX 65
4.2.1内存和缓存 66
4.2.2环形缓冲区——粉碎器的心脏 69
4.3 Storm的节点间通信 72
4.3.1 ZeroMQ 73
4.3.2 Storm的ZeroMQ配置 74
4.3.3 Netty 74
4.4理解Storm UI 75
4.4.1 Storm UI登录页面 75
4.4.2拓扑首页 78
4.5优化Storm性能 80
4.6本章小结 83
第5章 熟悉Kinesis 84
5.1 Kinesis架构概述 84
5.1.1 Amazon Kinesis的优势和用例 84
5.1.2高级体系结构 86
5.1.3 Kinesis的组件 87
5.2创建Kinesis流服务 90
5.2.1访问AWS 90
5.2.2配置开发环境 91
5.2.3创建Kinesis流 93
5.2.4创建Kinesis流生产者 97
5.2.5创建Kinesis流消费者 102
5.2.6产生和消耗犯罪警报 102
5.3本章小结 105
第6章 熟悉Spark 106
6.1 Spark概述 107
6.1.1批量数据处理 107
6.1.2实时数据处理 108
6.1.3一站式解决方案Apache Spark 110
6.1.4何时应用Spark——实际用例 112
6.2 Spark的架构 114
6.2.1高级架构 114
6.2.2 Spark扩展/库 116
6.2.3 Spark的封装结构和API 117
6.2.4 Spark的执行模型——主管-工作者视图 119
6.3弹性分布式数据集(RDD) 122
6.4编写执行第一个Spark程序 124
6.4.1硬件需求 125
6.4.2基本软件安装 125
6.4.3配置Spark集群 127
6.4.4用Scala编写Spark作业 129
6.4.5用Java编写Spark作业 132
6.5故障排除提示和技巧 133
6.5.1 Spark所用的端口数目 134
6.5.2类路径问题——类未找到异常 134
6.5.3其他常见异常 134
6.6本章小结 135
第7章 使用RDD编程 136
7.1理解Spark转换及操作 136
7.1.1 RDD API 137
7.1.2 RDD转换操作 139
7.1.3 RDD功能操作 141
7.2编程Spark转换及操作 142
7.3 Spark中的持久性 157
7.4本章小结 159
第8章Spark的SQL查询引擎——Spark SQL 160
8.1 Spark SQL的体系结构 161
8.1.1 Spark SQL的出现 161
8.1.2 Spark SQL的组件 162
8.1.3 Catalyst Optimizer 164
8.1.4 SQL/Hive context 165
8.2编写第一个Spark SQL作业 166
8.2.1用Scala编写Spark SQL作业 166
8.2.2用Java编写Spark SQL作业 170
8.3将RDD转换为DataFrame 173
8.3.1自动化过程 174
8.3.2手动过程 176
8.4使用Parquet 179
8.4.1在HDFS中持久化Parquet数据 182
8.4.2数据分区和模式演化/合并 185
8.5 Hive表的集成 186
8.6性能调优和最佳实践 190
8.6.1分区和并行性 191
8.6.2序列化 191
8.6.3缓存 192
8.6.4内存调优 192
8.7本章小结 194
第9章用Spark Streaming分析流数据 195
9.1高级架构 195
9.1.1 Spark Streaming的组件 196
9.1.2 Spark Streaming的封装结构 198
9.2编写第一个Spark Streaming作业 200
9.2.1创建流生成器 201
9.2.2用Scala编写Spark Streaming作业 202
9.2.3用Java编写Spark Streaming作业 205
9.2.4执行Spark Streaming作业 207
9.3实时查询流数据 209
9.3.1作业的高级架构 209
9.3.2编写Crime生产者 210
9.3.3编写Stream消费者和转换器 212
9.3.4执行SQL Streaming Crime分析器 214
9.4部署和监测 216
9.4.1用于Spark Streaming的集群管理器 216
9.4.2监测Spark Streaming应用程序 218
9.5本章小结 219
第10章 介绍Lambda架构 220
10.1什么是Lambda架构 220
10.1.1 Lambda架构的需求 220
10.1.2 Lambda架构的层/组件 222
10.2 Lambda架构的技术矩阵 226
10.3 Lambda架构的实现 228
10.3.1高级架构 229
10.3.2配置Apache Cassandra和Spark 230
10.3.3编写自定义生产者程序 233
10.3.4编写实时层代码 235
10.3.5编写批处理层代码 238
10.3.6编写服务层代码 239
10.3.7执行所有层代码 241
10.4本章小结 243
- 《水面舰艇编队作战运筹分析》谭安胜著 2009
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《钒产业技术及应用》高峰,彭清静,华骏主编 2019
- 《现代水泥技术发展与应用论文集》天津水泥工业设计研究院有限公司编 2019
- 《分析化学》陈怀侠主编 2019
- 《英汉翻译理论的多维阐释及应用剖析》常瑞娟著 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《区块链DAPP开发入门、代码实现、场景应用》李万胜著 2019
- 《虚拟流域环境理论技术研究与应用》冶运涛蒋云钟梁犁丽曹引等编著 2019
- 《影响葡萄和葡萄酒中酚类特征的因素分析》朱磊 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019