Spark高级数据分析PDF电子书下载
- 电子书积分:10 积分如何计算积分?
- 作 者:(美)里扎等著
- 出 版 社:北京:人民邮电出版社
- 出版年份:2015
- ISBN:9787115404749
- 页数:226 页
第1章 大数据分析 1
1.1数据科学面临的挑战 2
1.2认识Apache Spark 4
1.3关于本书 5
第2章 用Scala和Spark进行数据分析 7
2.1数据科学家的Scala 8
2.2 Spark编程模型 9
2.3记录关联问题 9
2.4小试牛刀:Spark shell和SparkContext 10
2.5把数据从集群上获取到客户端 15
2.6把代码从客户端发送到集群 18
2.7用元组和case class对数据进行结构化 19
2.8聚合 23
2.9创建直方图 24
2.10连续变量的概要统计 25
2.11为计算概要信息创建可重用的代码 26
2.12变量的选择和评分简介 30
2.13小结 31
第3章 音乐推荐和Audioscrobbler数据集 33
3.1数据集 34
3.2交替最小二乘推荐算法 35
3.3准备数据 37
3.4构建第一个模型 39
3.5逐个检查推荐结果 42
3.6评价推荐质量 43
3.7计算AUC 44
3.8选择超参数 46
3.9产生推荐 48
3.10小结 49
第4章 用决策树算法预测森林植被 51
4.1回归简介 52
4.2向量和特征 52
4.3样本训练 53
4.4决策树和决策森林 54
4.5 Covtype数据集 56
4.6准备数据 57
4.7第一棵决策树 58
4.8决策树的超参数 62
4.9决策树调优 63
4.10重谈类别型特征 65
4.11随机决策森林 67
4.12进行预测 69
4.13小结 69
第5章 基于K均值聚类的网络流量异常检测 71
5.1异常检测 72
5.2 K均值聚类 72
5.3网络入侵 73
5.4 KDD Cup 1999数据集 73
5.5初步尝试聚类 74
5.6 K的选择 76
5.7基于R的可视化 79
5.8特征的规范化 81
5.9类别型变量 83
5.10利用标号的熵信息 84
5.11聚类实战 85
5.12小结 86
第6章 基于潜在语义分析算法分析维基百科 89
6.1词项-文档矩阵 90
6.2获取数据 91
6.3分析和准备数据 92
6.4词形归并 93
6.5计算TF-1 DF 94
6.6奇异值分解 97
6.7找出重要的概念 98
6.8基于低维近似的查询和评分 101
6.9词项-词项相关度 102
6.10文档-文档相关度 103
6.11词项-文档相关度 105
6.12多词项查询 106
6.13小结 107
第7章 用GraphX分析伴生网络 109
7.1对MEDLINE文献引用索引的网络分析 110
7.2获取数据 111
7.3用Scala XML工具解析XML文档 113
7.4分析MeSH主要主题及其伴生关系 114
7.5用GraphX来建立一个伴生网络 116
7.6理解网络结构 119
7.6.1连通组件 119
7.6.2度的分布 122
7.7过滤噪声边 124
7.7.1处理EdgeTriplet 125
7.7.2分析去掉噪声边的子图 126
7.8小世界网络 127
7.8.1系和聚类系数 128
7.8.2用Pregel计算平均路径长度 129
7.9小结 133
第8章 纽约出租车轨迹的空间和时间数据分析 135
8.1数据的获取 136
8.2基于Spark的时间和空间数据分析 136
8.3基于JodaTime和NScalaTime的时间数据处理 137
8.4基于Esri Geometry API和Spray的地理空间数据处理 138
8.4.1认识Esri Geometry API 139
8.4.2 GeoJSON简介 140
8.5纽约市出租车客运数据的预处理 142
8.5.1大规模数据中的非法记录处理 143
8.5.2地理空间分析 147
8.6基于Spark的会话分析 149
8.7小结 153
第9章 基于蒙特卡罗模拟的金融风险评估 155
9.1术语 156
9.2 VaR计算方法 157
9.2.1方差-协方差法 157
9.2.2历史模拟法 157
9.2.3蒙特卡罗模拟法 157
9.3我们的模型 158
9.4获取数据 158
9.5数据预处理 159
9.6确定市场因素的权重 162
9.7采样 164
9.8运行试验 167
9.9回报分布的可视化 170
9.10结果的评估 171
9.11小结 173
第10章 基因数据分析和BDG项目 175
10.1分离存储与模型 176
10.2用ADAM CLI导入基因学数据 178
10.3从ENCODE数据预测转录因子结合位点 185
10.4查询1000 Genomes项目中的基因型 191
10.5小结 193
第11章 基于PySpark和Thunder的神经图像数据分析 195
11.1 PySpark简介 196
11.2 Thunder工具包概况和安装 199
11.3用Thunder加载数据 200
11.4用Thunder对神经元进行分类 207
11.5小结 211
附录A Spark进阶 213
附录B 即将发布的MLlib Pipelines API 221
作者介绍 226
封面介绍 226
- 《水面舰艇编队作战运筹分析》谭安胜著 2009
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《分析化学》陈怀侠主编 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《影响葡萄和葡萄酒中酚类特征的因素分析》朱磊 2019
- 《仪器分析技术 第2版》曹国庆 2018
- 《全国普通高等中医药院校药学类专业十三五规划教材 第二轮规划教材 分析化学实验 第2版》池玉梅 2018
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《断陷湖盆比较沉积学与油气储层》赵永胜等著 1996
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《魔法销售台词》(美)埃尔默·惠勒著 2019
- 《看漫画学钢琴 技巧 3》高宁译;(日)川崎美雪 2019
- 《优势谈判 15周年经典版》(美)罗杰·道森 2018
- 《社会学与人类生活 社会问题解析 第11版》(美)James M. Henslin(詹姆斯·M. 汉斯林) 2019
- 《海明威书信集:1917-1961 下》(美)海明威(Ernest Hemingway)著;潘小松译 2019
- 《迁徙 默温自选诗集 上》(美)W.S.默温著;伽禾译 2020
- 《上帝的孤独者 下 托马斯·沃尔夫短篇小说集》(美)托马斯·沃尔夫著;刘积源译 2017
- 《巴黎永远没个完》(美)海明威著 2017
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《办好人民满意的教育 全国教育满意度调查报告》(中国)中国教育科学研究院 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《人民院士》吴娜著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《中国人民的心》杨朔著;夕琳编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中华人民共和国成立70周年优秀文学作品精选 短篇小说卷 上 全2册》贺邵俊主编 2019
- 《指向核心素养 北京十一学校名师教学设计 数学 九年级 上 配人教版》周志英总主编 2019
- 《中华人民共和国成立70周年优秀文学作品精选 中篇小说卷 下 全3册》洪治纲主编 2019