《重构大数据统计》PDF下载

  • 购买积分:13 如何计算积分?
  • 作  者:杨旭著
  • 出 版 社:北京:电子工业出版社
  • 出版年份:2014
  • ISBN:9787121225000
  • 页数:392 页
图书介绍:对于大数据的统计计算,更注重减少计算资源的使用,提高计算效率。本书提出了一套完整的关于大数据统计的计算理论,包括了常用的各种统计量和统计方法,该理论在作者带领团队开发的大数据统计函数库的实践应用中得到了验证。本书对大数据统计计算的思想、方法和具体步骤进行了详细的文字描述和举例说明;书中包含了数学推导和结果,揭示了各种统计概念和方法其中内在的关联;书中的示例程序代码可以帮助读者进一步了解实现细节,便于读者将书中方法用来进行实际计算。

第1章 基本概念 1

1.1 数据类型 1

1.2 总体和样本 2

1.3 参数和统计量 2

1.4 分布式计算 3

第2章 单变量基本统计量 5

2.1 数量统计量 5

2.1.1 样本方差为何除以n-1 7

2.1.2 数据分布与标准差的关系 10

2.1.3 新的计算公式 11

2.1.4 代码实现 16

2.2 频数统计量 18

2.3 次序统计量 23

2.3.1 通过排序方法计算次序统计量 25

2.3.2 不需排序就可计算的次序统计量 29

2.3.3 基于频数信息计算次序统计量 31

2.3.4 中位数、众数和均值的关系 34

第3章 单变量数据的分布 36

3.1 直方图 36

3.1.1 直方图的计算 39

3.1.2 算法实现 42

3.1.3 已知数据频数的情况下求直方图 49

3.1.4 日期类型直方图 49

3.2 经验分布 57

3.3 近似分位数和近似百分位数 61

3.4 PP、QQ概率图 65

3.5 单变量的基本统计信息 69

第4章 多变量的数据特征 77

4.1 协方差 77

4.2 相关系数 79

4.3 协方差和相关系数的计算实现 80

4.4 数据表的基本统计结果 84

第5章 数据探索 88

5.1 扩展直方图 88

5.1.1 计算方法 90

5.1.2 代码实现 91

5.2 交叉表 110

第6章 极限定理 116

6.1 大数定理 116

6.2 中心极限定理 117

第7章 常用的分布函数介绍 123

7.1 基本定义 123

7.2 标准正态分布(Z分布或U分布) 124

7.3 卡方分布(X2分布) 129

7.4 学生T分布 133

7.5 F分布 139

第8章 常用分布函数计算 145

8.1 函数定义 145

8.2 函数性质及相互间的关系 147

8.3 分布函数关系图 164

8.4 分布函数的计算 166

8.4.1 计算Γ(x) 166

8.4.2 计算CDFг 170

8.4.3 计算CDFB 173

8.4.4 计算IDFг和CDFв 176

8.4.5 其他函数的计算 178

8.5 成常用分布的随机数 180

第9章 参数估计 187

9.1 点估计与区间估计 187

9.2 单个总体的参数估计 190

9.2.1 不同情况的参数估计表达式 190

9.2.2 单个总体参数估计的实现 191

9.3 两个总体的参数估计 196

9.3.1 不同情况的参数估计表达式 196

9.3.2 两个总体参数估计的实现 199

第10章 假设检验 207

10.1 基本概念 207

10.2 参数检验 209

10.3 单个总体参数的检验 212

10.3.1 各种情况下的检验方法 212

10.3.2 单个总体参数检验方法的实现 214

10.3.3 不同检验方法的选择 223

10.4 两个总体参数的检验 227

10.4.1 各种情况下的检验方法 227

10.4.2 两个总体参数检验方法的实现 231

10.4.3 不同检验方法的选择 237

第11章 非参数检验 244

11.1 Pearson拟合优度X2检验 245

11.2 两个变量的列联表检验 248

11.3 K-S检验 250

11.3.1 单样本K-S检验 251

11.3.2 双样本K-S检验 256

11.4 符号检验 258

11.5 秩统计量和秩检验方法 260

11.5.1 Wilcoxon秩和检验 260

11.5.2 Wilcoxon符号秩和检验 266

11.5.3 Kruskal-Wallis检验 268

11.5.4 Friedman检验 273

第12章 方差分析 277

12.1 单因素方差分析 278

12.1.1 计算流程 278

12.1.2 代码实现 280

12.1.3 方差分析与T检验的关系 283

12.1.4 方差分析中的多重比较方法 285

12.2 双因素方差分析 289

12.2.1 无交互作用的双因素方差分析 289

12.2.2 有交互作用的双因素方差分析 295

第13章 多元线性回归 302

13.1 数学模型 302

13.2 显著性检验 308

13.3 计算步骤 309

13.4 代码实现 313

13.5 多重共线性 320

13.5.1 度量指标 320

13.5.2 代码实现 323

13.5.3 应用示例 328

13.6 逐步回归 330

第14章 主成分分析 340

14.1 计算步骤 342

14.2 代码实现 345

14.3 应用举例 350

第15章 判别分析 359

15.1 距离判别 359

15.1.1 Mahalanobis距离 360

15.1.2 模型训练和预测 361

15.2 Fisher判别 364

15.3 Bayes判别 369

15.3.1 朴素Bayes判别 369

15.3.2 模型训练和预测 370

15.4 判别算法的综合模型 377

15.5 应用举例 378

第16章 模型评估曲线 383

16.1 相关概念 383

16.2 定义 384

16.2.1 ROC曲线 384

16.2.2 上升图和反馈率—精确率线 386

16.3 计算实现 386

参考文献 391