《Spark高级数据分析》PDF下载

  • 购买积分:10 如何计算积分?
  • 作  者:(美)里扎等著
  • 出 版 社:北京:人民邮电出版社
  • 出版年份:2015
  • ISBN:9787115404749
  • 页数:226 页
图书介绍:本书是使用Spark进行大规模数据分析的实战宝典。四位来自Cloudera的数据科学家不仅讲解了Spark,还通过实例讲解了统计方法、数据处理技术等各种解决现实问题的方法。本书涉及的数据分析模式包括分类、协同过滤、异常检测等。适合具有一些机器学习和统计背景,使用过Java、Python或Scala的开发人员阅读。

第1章 大数据分析 1

1.1数据科学面临的挑战 2

1.2认识Apache Spark 4

1.3关于本书 5

第2章 用Scala和Spark进行数据分析 7

2.1数据科学家的Scala 8

2.2 Spark编程模型 9

2.3记录关联问题 9

2.4小试牛刀:Spark shell和SparkContext 10

2.5把数据从集群上获取到客户端 15

2.6把代码从客户端发送到集群 18

2.7用元组和case class对数据进行结构化 19

2.8聚合 23

2.9创建直方图 24

2.10连续变量的概要统计 25

2.11为计算概要信息创建可重用的代码 26

2.12变量的选择和评分简介 30

2.13小结 31

第3章 音乐推荐和Audioscrobbler数据集 33

3.1数据集 34

3.2交替最小二乘推荐算法 35

3.3准备数据 37

3.4构建第一个模型 39

3.5逐个检查推荐结果 42

3.6评价推荐质量 43

3.7计算AUC 44

3.8选择超参数 46

3.9产生推荐 48

3.10小结 49

第4章 用决策树算法预测森林植被 51

4.1回归简介 52

4.2向量和特征 52

4.3样本训练 53

4.4决策树和决策森林 54

4.5 Covtype数据集 56

4.6准备数据 57

4.7第一棵决策树 58

4.8决策树的超参数 62

4.9决策树调优 63

4.10重谈类别型特征 65

4.11随机决策森林 67

4.12进行预测 69

4.13小结 69

第5章 基于K均值聚类的网络流量异常检测 71

5.1异常检测 72

5.2 K均值聚类 72

5.3网络入侵 73

5.4 KDD Cup 1999数据集 73

5.5初步尝试聚类 74

5.6 K的选择 76

5.7基于R的可视化 79

5.8特征的规范化 81

5.9类别型变量 83

5.10利用标号的熵信息 84

5.11聚类实战 85

5.12小结 86

第6章 基于潜在语义分析算法分析维基百科 89

6.1词项-文档矩阵 90

6.2获取数据 91

6.3分析和准备数据 92

6.4词形归并 93

6.5计算TF-1 DF 94

6.6奇异值分解 97

6.7找出重要的概念 98

6.8基于低维近似的查询和评分 101

6.9词项-词项相关度 102

6.10文档-文档相关度 103

6.11词项-文档相关度 105

6.12多词项查询 106

6.13小结 107

第7章 用GraphX分析伴生网络 109

7.1对MEDLINE文献引用索引的网络分析 110

7.2获取数据 111

7.3用Scala XML工具解析XML文档 113

7.4分析MeSH主要主题及其伴生关系 114

7.5用GraphX来建立一个伴生网络 116

7.6理解网络结构 119

7.6.1连通组件 119

7.6.2度的分布 122

7.7过滤噪声边 124

7.7.1处理EdgeTriplet 125

7.7.2分析去掉噪声边的子图 126

7.8小世界网络 127

7.8.1系和聚类系数 128

7.8.2用Pregel计算平均路径长度 129

7.9小结 133

第8章 纽约出租车轨迹的空间和时间数据分析 135

8.1数据的获取 136

8.2基于Spark的时间和空间数据分析 136

8.3基于JodaTime和NScalaTime的时间数据处理 137

8.4基于Esri Geometry API和Spray的地理空间数据处理 138

8.4.1认识Esri Geometry API 139

8.4.2 GeoJSON简介 140

8.5纽约市出租车客运数据的预处理 142

8.5.1大规模数据中的非法记录处理 143

8.5.2地理空间分析 147

8.6基于Spark的会话分析 149

8.7小结 153

第9章 基于蒙特卡罗模拟的金融风险评估 155

9.1术语 156

9.2 VaR计算方法 157

9.2.1方差-协方差法 157

9.2.2历史模拟法 157

9.2.3蒙特卡罗模拟法 157

9.3我们的模型 158

9.4获取数据 158

9.5数据预处理 159

9.6确定市场因素的权重 162

9.7采样 164

9.8运行试验 167

9.9回报分布的可视化 170

9.10结果的评估 171

9.11小结 173

第10章 基因数据分析和BDG项目 175

10.1分离存储与模型 176

10.2用ADAM CLI导入基因学数据 178

10.3从ENCODE数据预测转录因子结合位点 185

10.4查询1000 Genomes项目中的基因型 191

10.5小结 193

第11章 基于PySpark和Thunder的神经图像数据分析 195

11.1 PySpark简介 196

11.2 Thunder工具包概况和安装 199

11.3用Thunder加载数据 200

11.4用Thunder对神经元进行分类 207

11.5小结 211

附录A Spark进阶 213

附录B 即将发布的MLlib Pipelines API 221

作者介绍 226

封面介绍 226