前言 1
1 Apache Spark简介 1
1.1 Apache Spark的历史与现状 1
1.2 安装和运行Apache Spark 2
1.3 Apache Spark编程简介 5
1.3.1 Scala语言 5
1.3.2 Spark编程 11
1.4 公共数据集 14
2 Breeze程序包 15
2.1 创建向量、矩阵及其简单计算 15
2.2 整行或整列的运算 19
2.3 常用数学计算 20
2.4 常用分布 20
2.5 基于Breeze包的分布式计算 23
3 随机模拟和统计推断 24
3.1 随机数的产生 24
3.1.1 逆累积分布函数法 25
3.1.2 拒绝法 26
3.1.3 案例:从回归模型中模拟数据 27
3.2 EM优化 31
3.2.1 EM基本算法 31
3.2.2 收敛性分析 31
3.2.3 分布式EM算法 32
3.2.4 案例:高斯混合模型 33
4 马尔科夫链蒙特卡洛 37
4.1 Metropolis-Hastings算法 38
4.2 Slice取样法 40
4.3 Gibbs取样法 41
5 优化方法 43
5.1 交替方向乘子法 43
5.1.1 算法介绍 43
5.1.2 案例:分位数回归分布式参数估计 45
5.2 数值计算方法 50
5.2.1 随机梯度下降算法 51
5.2.2 有限内存BFGS算法 61
6 自举法 65
6.1 自由自举法 66
6.2 子集合自举法 68
7 常用大数据统计学习方法 71
7.1 聚类分析 71
7.1.1 K组中心法 72
7.1.2 隐狄利克雷分配法 74
7.1.3 功效迭代聚类法 77
7.2 分类分析 78
7.2.1 Logistic回归 79
7.2.2 线性支持向量机 79
7.2.3 线性判别分析 81
7.2.4 决策树 82
8 数据降维 87
8.1 主成分分析 87
8.2 奇异值分解 88
8.3 案例 89
8.3.1 读取图片 90
8.3.2 处理图片 91
8.3.3 存储图片 92
8.3.4 提取主成分向量 93
附录 部分课程案例 97
案例1 基于EM算法的t分布参数估计 97
案例2 基于SCAD惩罚的线性回归分析 115
参考文献 124