《分布式统计计算》PDF下载

  • 购买积分:8 如何计算积分?
  • 作  者:冯兴东著
  • 出 版 社:上海:上海财经大学出版社
  • 出版年份:2018
  • ISBN:9787564229696
  • 页数:126 页
图书介绍:人类各项科学技术的发展带来了海量数据,“大数据”的概念铺天盖地。统计学这一专注于数据分析的学科理应适应于这一时代的重大变革和发展。显然大数据带给统计学的冲击是全方面的,不只是局限于理论或者计算。国际上众多统计学家都在思考统计学在大数据时代应该扮演的角色。然而,提高统计学专业的学生相关计算机编程能力却是刻不容缓。在这一背景之下,上海财经大学统计与管理学院开设了专业统计学硕士“数据科学与商务统计”方向,力图增强相关硕士生从事大数据分析的计算能力以及分析商务数据(包括营销数据、信用数据等)的应用能力。在这一指导思想之下,上海财经大学统计与管理学院开设了一系列相关课程。本讲义就是针对该专业方向的《分布式统计计算》一课。这门课程向学生介绍分布式计算的思想以及在统计学上的应用,将统计学传统方法和分布式计算方法相结合,通过不同的统计学问题来强化学生的分布式统计计算的编程能力和对统计计算的理解。

前言 1

1 Apache Spark简介 1

1.1 Apache Spark的历史与现状 1

1.2 安装和运行Apache Spark 2

1.3 Apache Spark编程简介 5

1.3.1 Scala语言 5

1.3.2 Spark编程 11

1.4 公共数据集 14

2 Breeze程序包 15

2.1 创建向量、矩阵及其简单计算 15

2.2 整行或整列的运算 19

2.3 常用数学计算 20

2.4 常用分布 20

2.5 基于Breeze包的分布式计算 23

3 随机模拟和统计推断 24

3.1 随机数的产生 24

3.1.1 逆累积分布函数法 25

3.1.2 拒绝法 26

3.1.3 案例:从回归模型中模拟数据 27

3.2 EM优化 31

3.2.1 EM基本算法 31

3.2.2 收敛性分析 31

3.2.3 分布式EM算法 32

3.2.4 案例:高斯混合模型 33

4 马尔科夫链蒙特卡洛 37

4.1 Metropolis-Hastings算法 38

4.2 Slice取样法 40

4.3 Gibbs取样法 41

5 优化方法 43

5.1 交替方向乘子法 43

5.1.1 算法介绍 43

5.1.2 案例:分位数回归分布式参数估计 45

5.2 数值计算方法 50

5.2.1 随机梯度下降算法 51

5.2.2 有限内存BFGS算法 61

6 自举法 65

6.1 自由自举法 66

6.2 子集合自举法 68

7 常用大数据统计学习方法 71

7.1 聚类分析 71

7.1.1 K组中心法 72

7.1.2 隐狄利克雷分配法 74

7.1.3 功效迭代聚类法 77

7.2 分类分析 78

7.2.1 Logistic回归 79

7.2.2 线性支持向量机 79

7.2.3 线性判别分析 81

7.2.4 决策树 82

8 数据降维 87

8.1 主成分分析 87

8.2 奇异值分解 88

8.3 案例 89

8.3.1 读取图片 90

8.3.2 处理图片 91

8.3.3 存储图片 92

8.3.4 提取主成分向量 93

附录 部分课程案例 97

案例1 基于EM算法的t分布参数估计 97

案例2 基于SCAD惩罚的线性回归分析 115

参考文献 124