图灵原创 SPARK最佳实践PDF电子书下载
- 电子书积分:10 积分如何计算积分?
- 作 者:陈欢,林世飞著
- 出 版 社:北京:人民邮电出版社
- 出版年份:2016
- ISBN:7115422286
- 页数:211 页
第1章 Spark与大数据 1
1.1 大数据的发展及现状 1
1.1.1 大数据时代所面临的问题 1
1.1.2 谷歌的大数据解决方案 2
1.1.3 Hadoop生态系统 3
1.2 Spark应时而生 4
1.2.1 Spark的起源 4
1.2.2 Spark的特点 5
1.2.3 Spark的未来发展 6
第2章 Spark基础 8
2.1 Spark本地单机模式体验 8
2.1.1 安装虚拟机 8
2.1.2 安装JDK 19
2.1.3 下载Spark预编译包 21
2.1.4 本地体验Spark 22
2.2 高可用Spark分布式集群部署 25
2.2.1 集群总览 26
2.2.2 集群机器的型号选择 28
2.2.3 初始化集群机器环境 29
2.2.4 部署ZooKeeper集群 33
2.2.5 编译Spark 35
2.2.6 部署Spark Standalone集群 37
2.2.7 高可用Hadoop集群 40
2.2.8 让Spark运行在YARN上 40
2.2.9 一键部署高可用Hadoop+Spark集群 42
2.3 Spark编程指南 43
2.3.1 交互式编程 43
2.3.2 RDD创建 44
2.3.3 RDD操作 47
2.3.4 使用其他语言开发Spark程序 54
2.4 打包和提交 54
2.4.1 编译、链接、打包 54
2.4.2 提交 56
第3章 Spark工作机制 58
3.1 调度管理 58
3.1.1 集群概述及名词解释 58
3.1.2 Spark程序之间的调度 60
3.1.3 Spark程序内部的调度 63
3.2 内存管理 65
3.2.1 RDD持久化 65
3.2.2 共享变量 66
3.3 容错机制 67
3.3.1 容错体系概述 67
3.3.2 Master节点失效 68
3.3.3 Slave节点失效 69
3.4 监控管理 69
3.4.1 Web界面 69
3.4.2 REST API 72
3.4.3 Metrics指标体系 73
3.4.4 其他监控工具 73
3.5 Spark程序配置管理 73
3.5.1 Spark程序配置加载过程 74
3.5.2 环境变量配置 74
3.5.3 Spark属性项配置 74
3.5.4 查看当前的配置 76
3.5.5 配置Spark日志 76
第4章 Spark内核讲解 77
4.1 Spark核心数据结构RDD 77
4.1.1 RDD的定义 78
4.1.2 RDD的Transformation 80
4.1.3 RDD的Action 82
4.1.4 Shuffle 83
4.2 SparkContext 84
4.2.1 SparkConf配置 84
4.2.2 初始化过程 85
4.2.3 其他功能接口 87
4.3 DAG调度 87
4.3.1 DAGScheduler 87
4.3.2 TaskScheduler 90
第5章 Spark SQL与数据仓库 92
5.1 Spark SQL基础 93
5.1.1 分布式SQL引擎 93
5.1.2 支持的SQL语法 97
5.1.3 支持的数据类型 98
5.1.4 DataFrame 99
5.1.5 DataFrame数据源 103
5.1.6 性能调优 104
5.2 Spark SQL原理和运行机制 104
5.2.1 Spark SQL整体架构 105
5.2.2 Catalyst执行优化器 105
5.3 应用场景:基于淘宝数据建立电商数据仓库 110
5.3.1 电商数据仓库场景 111
5.3.2 数据准备和表设计 111
5.3.3 用Spark SQL来完成日常运营数据分析 115
5.3.4 Spark SQL在大规模数据下的性能表现 120
第6章 Spark流式计算 122
6.1 Spark Streaming基础知识 123
6.1.1 入门简单示例 123
6.1.2 基本概念 124
6.1.3 高级操作 129
6.2 深入理解Spark Streaming 132
6.2.1 DStream的两类操作 132
6.2.2 容错处理 134
6.2.3 性能调优 136
6.2.4 与Storm的对比 137
6.3 应用场景:一个类似百度统计的流式实时系统 139
6.3.1 Web log实时统计场景 139
6.3.2 日志实时采集 140
6.3.3 流式分析系统实现 140
第7章 Spark图计算 149
7.1 什么是图计算 149
7.1.1 图的基本概念 149
7.1.2 图计算的应用 150
7.2 Spark GraphX简介 151
7.2.1 GraphX实现 151
7.2.2 GraphX常用API介绍 152
7.3 应用场景:基于新浪微博数据的社交网络分析 153
7.3.1 社交网络分析的主要应用 153
7.3.2 社区发现算法简介 154
7.3.3 用GraphX实现Louvain算法 156
7.3.4 小试牛刀:谁是你的闺蜜 162
7.3.5 真实的场景:新浪微博关系分析 164
第8章 Spark MLlib 169
8.1 机器学习简介 169
8.1.1 什么是机器学习 169
8.1.2 机器学习示例 171
8.1.3 机器学习的基本方法 172
8.1.4 机器学习的常见技巧 173
8.1.5 机器学习参考资料 174
8.2 MLlib库简介 174
8.2.1 基础数据类型 174
8.2.2 主要的库 175
8.2.3 附带的示例程序 176
8.3 应用场景:搜索广告点击率预估系统 178
8.3.1 应用场景 178
8.3.2 逻辑回归 179
8.3.3 学习算法 181
8.3.4 模型评估 184
8.3.5 数据准备 186
8.3.6 模型训练 187
8.3.7 模型调优 195
附录 Scala语言参考 197
- 《语文教育教学实践探索》陈德收 2018
- 《彼得·布鲁克导演实践研究》邓小玲著 2019
- 《反思性实践》胡红梅, 2019
- 《高含硫气藏开发腐蚀控制技术与实践》唐永帆,张强 2018
- 《环境影响评价公众参与理论与实践研究》樊春燕主编 2019
- 《学校特色教育探索与实践》管升起著 2019
- 《麦肯锡精英这样实践基本功》(日)户塚隆将著 2019
- 《财经新闻翻译实践教程》胡婉,黄剑,王旭泉主编 2019
- 《城市基坑工程设计施工实践与应用》李欢秋,刘飞,郭进军编著 2019
- 《当代声乐教学理念与实践创新》王松林责任编辑;(中国)林梅 2019
- 《书林学步》李雄飞著 2019
- 《中国二氧化碳减排和环境协同效益评价模型的构建与研究》杨曦,滕飞著 2019
- 《民法强制性规范研究》郭少飞著 2019
- 《晚期中古史存稿》胡耀飞著 2019
- 《第十一次真相》赤蝶飞飞著 2020
- 《灵魂 悲歌祭柴科夫斯基的一剧三曲》沈希飞著 2016
- 《天才鉴定历史档案》贾飞著 2019
- 《明清时期山东运河区域民间信仰研究》胡梦飞著 2019
- 《卸妆》岑玲飞著 2018
- 《农村土地确权流转改革背景下的基层治理创新研究》华彦玲;王江飞著 2016
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《办好人民满意的教育 全国教育满意度调查报告》(中国)中国教育科学研究院 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《人民院士》吴娜著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《中国人民的心》杨朔著;夕琳编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中华人民共和国成立70周年优秀文学作品精选 短篇小说卷 上 全2册》贺邵俊主编 2019
- 《指向核心素养 北京十一学校名师教学设计 数学 九年级 上 配人教版》周志英总主编 2019
- 《中华人民共和国成立70周年优秀文学作品精选 中篇小说卷 下 全3册》洪治纲主编 2019