Spark GraphX实战PDF电子书下载
- 电子书积分:11 积分如何计算积分?
- 作 者:(美)迈克尔 S.马拉克(Michael S.Malak),罗宾·伊斯特(Robin East)
- 出 版 社:北京:电子工业出版社
- 出版年份:2017
- ISBN:9787121310430
- 页数:278 页
第1部分 Spark和图 3
1 两项重要的技术:Spark和图 3
1.1 Spark:超越Hadoop MapReduce 4
1.1.1 模糊的大数据定义 6
1.1.2 Hadoop:Spark之前的世界 6
1.1.3 Spark:内存中的MapReduce处理 7
1.2 图:挖掘关系中的含义 9
1.2.1 图的应用 11
1.2.2 图数据的类型 12
1.2.3 普通的关系型数据库在图方面的不足 14
1.3 把快如闪电的图处理放到一起:Spark GraphX 14
1.3.1 图的属性:增加丰富性 15
1.3.2 图的分区:当图变为大数据集时 17
1.3.3 GraphX允许选择:图并行还是数据并行 19
1.3.4 GraphX支持的各种数据处理方式 19
1.3.5 GraphX与其他图系统 21
1.3.6 图存储:分布式文件存储与图数据库 23
1.4 小结 23
2 GraphX快速入门 24
2.1 准备开始并准备数据 24
2.2 用Spark Shell做GraphX交互式查询 26
2.3 PageRank算法示例 29
2.4 小结 31
3 基础知识 32
3.1 Scala——Spark的原生编程语言 33
3.1.1 Scala的理念:简洁和表现力 33
3.1.2 函数式编程 34
3.1.3 类型推断 38
3.1.4 类的声明 39
3.1.5 map和reduce 41
3.1.6 一切皆是“函数” 42
3.1.7 与Java的互操作性 44
3.2 Spark 44
3.2.1 分布式内存数据:RDD 44
3.2.2 延迟求值 47
3.2.3 集群要求和术语解释 49
3.2.4 序列化 50
3.2.5 常用的RDD操作 50
3.2.6 Spark和SBT初步 54
3.3 图术语解释 55
3.3.1 基础 55
3.3.2 RDF图和属性图 58
3.3.3 邻接矩阵 59
3.3.4 图查询系统 59
3.4 小结 60
第2部分 连接顶点 65
4 GraphX基础 65
4.1 顶点对象与边对象 65
4.2 mapping操作 71
4.2.1 简单的图转换 71
4.2.2 Map/Reduce 73
4.2.3 迭代的Map/Reduce 77
4.3 序列化/反序列化 79
4.3.1 读/写二进制格式的数据 79
4.3.2 JSON格式 81
4.3.3 Gephi可视化软件的GEXF格式 85
4.4 图生成 86
4.4.1 确定的图 86
4.4.2 随机图 88
4.5 Pregel API 90
4.6 小结 96
5 内置图算法 97
5.1 找出重要的图节点:网页排名 98
5.1.1 PageRank算法解释 98
5.1.2 在GraphX中使用PageRank 99
5.1.3 个性化的PageRank 102
5.2 衡量连通性:三角形数 103
5.2.1 三角形关系的用法 103
5.2.2 Slashdot朋友和反对者的用户关系示例 104
5.3 查找最少的跳跃:最短路径 106
5.4 找到孤岛人群:连通组件 107
5.4.1 预测社交圈子 108
5.5 受欢迎的回馈:增强连通组件 114
5.6 社区发现算法:标签传播 115
5.7 小结 117
6 其他有用的图算法 118
6.1 你自己的GPS:有权值的最短路径 119
6.2 旅行推销员问题:贪心算法 124
6.3 路径规划工具:最小生成树 127
6.3.1 基于Word2Vec的推导分类法和最小生成树 131
6.4 小结 135
7 机器学习 136
7.1 监督、无监督、半监督学习 137
7.2 影片推荐:SVDPlusPlus 139
7.2.1 公式解释 146
7.3 在MLlib中使用GraphX 146
7.3.1 主题聚类:隐含狄利克雷分布 147
7.3.2 垃圾信息检测:LogisticRegressionWithSGD 156
7.3.3 使用幂迭代聚类进行图像分割(计算机视觉) 160
7.4 穷人(简化版)的训练数据:基于图的半监督学习 165
7.4.1 K近邻图构建 168
7.4.2 半监督学习标签传播算法 175
7.5 小结 180
第3部分 更多内容 183
8 缺失的算法 183
8.1 缺失的基本图操作 184
8.1.1 通用意义上的子图 184
8.1.2 图合并 185
8.2 读取RDF图文件 189
8.2.1 顶点匹配以及图构建 189
8.2.2 使用IndexedRDD和RDD HashMap来提升性能 191
8.3 穷人(简化版)的图同构:找到Wikipedia缺失的信息 197
8.4 全局聚类系数:连通性比较 202
8.5 小结 205
9 性能和监控 207
9.1 监控Spark应用 208
9.1.1 Spark如何运行应用 208
9.1.2 用Spark监控来了解你的应用的运行时信息 211
9.1.3 history server 221
9.2 Spark配置 223
9.2.1 充分利用全部CPU资源 226
9.3 Spark性能调优 227
9.3.1 用缓存和持久化来加速Spark 227
9.3.2 checkpointing 230
9.3.3 通过序列化降低内存压力 232
9.4 图分区 233
9.5 小结 235
10 更多语言以及工具 237
10.1 在GraphX中使用除Scala外的其他语言 238
10.1.1 在GraphX中使用Java 7 238
10.1.2 在GraphX中使用Java 8 245
10.1.3 未来GraphX是否会支持Python或者R 245
10.2 其他可视化工具:Apache Zeppelin和d3.js 245
10.3 类似一个数据库:Spark Job Server 248
10.3.1 示例:查询Slashdot好友的分离程度 250
10.3.2 更多使用Spark Job Server的例子 253
10.4 通过GraphFrames在Spark的图上使用SQL 254
10.4.1 GraphFrames和GraphX的互操作性 255
10.4.2 使用SQL进行便捷、高性能的操作 257
10.4.3 使用Cypher语言的子集来进行顶点搜索 258
10.4.4 稍微复杂一些的YAGO图同构搜索 260
10.5 小结 264
附录A 安装Spark 266
附录B Gephi可视化软件 271
附录C 更多资源 275
附录D 本书中的Scala小贴士 278
- 《Maya 2018完全实战技术手册》来阳编著 2019
- 《Python3从入门到实战》董洪伟 2019
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《星空摄影后期实战》阿五在路上著 2020
- 《半小时漫画股票实战法》财经杂质著 2019
- 《深度学习与飞桨PaddlePaddle Fluid实战》于祥 2019
- 《数字插画实战 人像创作30例》王鲁光著 2019
- 《2017国家执业药师资格考试 全考点实战通关必备 中药学综合知识与技能 第3版》国家执业药师资格考试命题研究专家组 2017
- 《微软Azure实战参考》李竞,陈勇华编著 2019
- 《Cocos Creator微信小游戏开发实战》王绍明编著 2020
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《青青校树》徐伟珠译;(捷克)兹旦内克·斯维拉克 2019
- 《魔法销售台词》(美)埃尔默·惠勒著 2019
- 《看漫画学钢琴 技巧 3》高宁译;(日)川崎美雪 2019
- 《优势谈判 15周年经典版》(美)罗杰·道森 2018
- 《社会学与人类生活 社会问题解析 第11版》(美)James M. Henslin(詹姆斯·M. 汉斯林) 2019
- 《海明威书信集:1917-1961 下》(美)海明威(Ernest Hemingway)著;潘小松译 2019
- 《迁徙 默温自选诗集 上》(美)W.S.默温著;伽禾译 2020
- 《上帝的孤独者 下 托马斯·沃尔夫短篇小说集》(美)托马斯·沃尔夫著;刘积源译 2017
- 《巴黎永远没个完》(美)海明威著 2017
- 《电子测量与仪器》人力资源和社会保障部教材办公室组织编写 2009
- 《少儿电子琴入门教程 双色图解版》灌木文化 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《通信电子电路原理及仿真设计》叶建芳 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《电子应用技术项目教程 第3版》王彰云 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017