《大数据分析 R基础及应用》PDF下载

  • 购买积分:9 如何计算积分?
  • 作  者:深圳国泰安教育技术股份有限公司,中科院深圳先进技术研究院-国泰安金融大数据研究中心编著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2016
  • ISBN:9787302428633
  • 页数:187 页
图书介绍:本书从理论基础、方法、实证三方面详细地阐释了R和RHadoop的相关理论、技术以及应用,使读者了解大数据的基础概念,掌握R以及Rhadoop大数据分析技术。本书适合高等院校的各相关专业的本专科生、研究生,零编程基础的科研人员以及对大数据分析技术感兴趣的人士阅读。我们在内容的选择和结构的安排上进行了深入的思考,使得不论是R或RHadoop的初学者还是具备一定相关专业知识的人员都能从本书中得到一定的收获或启发。

第一部分 大数据简介 3

第1章 大数据概述 3

1.1 大数据的概念 3

1.2 大数据的特征 4

1.3 大数据的产生 4

1.4 大数据应用案例 4

第2章 大数据相关技术 6

2.1 数据采集和准备 6

2.2 分布式数据库 7

2.3 分布式数据分析框架 9

2.3.1 Hadoop 9

2.3.2 HDFS 10

2.3.3 HBase 11

2.3.4 Hive 11

2.3.5 MapReduce 11

2.3.6 Strom 12

2.4 大数据分析与R 13

2.4.1 RHadoop 13

2.4.2 RHIPE 15

2.4.3 RHive 15

2.4.4 RHBase 16

2.5 国泰安的大数据 16

2.5.1 大数据实验室建设 16

2.5.2 大数据分析平台 19

第二部分 R 语言 23

第3章 R语言简介 23

3.1 R语言概述 23

3.2 R的下载、安装和使用 24

3.2.1 RGui界面 24

3.2.2 RStudio界面 27

3.2.3 R的运行 29

3.2.4 工作目录和工作空间 30

3.2.5 R语言的帮助 32

3.3 R的包 33

3.3.1 包的获取 33

3.3.2 包的安装 36

3.3.3 包的加载 40

3.3.4 包的使用 41

第4章 R语言基本操作 42

4.1 数据结构 42

4.2 数据的基本操作 43

4.2.1 赋值和创建 43

4.2.2 数据的运算 49

4.2.3 数据的导入 50

4.3 数据的管理 52

4.3.1 数据排序 52

4.3.2 数据集的合并 53

4.3.3 剔除变量 54

4.3.4 数据集提取 54

4.3.5 subset函数 55

4.4 常用函数 56

第5章 R语言绘图 57

5.1 绘图参数 57

5.1.1 符号、线条与颜色 59

5.1.2 标题、坐标轴与图例 61

5.1.3 文本属性 63

5.1.4 图形的组合 65

5.2 高级绘图函数 66

5.2.1 通用二维图 67

5.2.2 饼图 67

5.2.3 箱线图 68

5.2.4 条形图 71

5.2.5 直方图 72

5.2.6 核密度图 74

5.2.7 点图 76

5.3 低级绘图函数 77

第6章 R语言数据分析 79

6.1 数据处理基础函数 79

6.1.1 数学函数 79

6.1.2 统计函数 80

6.1.3 概率函数 81

6.1.4 数据分析实例 81

6.2 描述性统计分析 84

6.2.1 描述统计函数 84

6.2.2 软件包的描述统计 86

6.3 多元统计分析 88

6.3.1 方差分析 89

6.3.2 判别分析 91

6.3.3 聚类分析 92

6.3.4 主成分分析 94

6.3.5 因子分析 97

6.3.6 典型相关分析 101

第三部分 专题实证研究 107

第7章 金融时间序列建模专题 107

7.1 金融时间序列 107

7.2 ARMA模型 110

7.2.1 ARMA模型简介 110

7.2.2 ARMA模型定阶 110

7.2.3 ARMA模型拟合 111

7.3 GARCH模型 112

7.3.1 GARCH模型简介 112

7.3.2 GARCH模型拟合 112

第8章 动态面板数据专题 114

8.1 GMM估计 114

8.1.1 系统GMM估计 114

8.1.2 GMM估计原理 115

8.2 动态面板数据模型的系统GMM估计 115

第9章 数据挖掘专题 121

9.1 关联规则 121

9.2 降维分析 122

9.3 社交网络分析 125

9.4 贝叶斯分类法 128

9.4.1 贝叶斯定理 128

9.4.2 贝叶斯分类实例 128

9.5 决策树 130

9.5.1 决策树原理 130

9.5.2 决策树分类实例 131

9.6 人工神经网络 133

9.6.1 三层前馈神经网络原理 133

9.6.2 神经网络分类实例 134

9.7 支持向量机 136

9.7.1 支持向量机原理 136

9.7.2 支持向量机分类实例 137

第10章 信息可视化专题 140

10.1 绘制地图 140

10.1.1 世界地图 141

10.1.2 中国地图 141

10.1.3 公路线图 142

10.2 可视化实例 144

10.2.1 数据 144

10.2.2 ggmap 145

第四部分 RHadoop案例分析 153

第11章 RHadoop的基本操作 153

11.1 数据文件的读取 153

11.2 包的加载 154

11.3 基本函数 155

第12章 RHadoop 环境下案例分析 157

12.1 回归分析 157

12.1.1 回归分析原理 157

12.1.2 线性回归分析案例 158

12.2 Logistic分析 161

12.2.1 Logistic分析原理 161

12.2.2 Logistic分析案例 162

12.3 判别分析 163

12.3.1 线性判别分析原理 163

12.3.2 线性判别分析案例 164

12.4 聚类分析 167

12.4.1 K-means聚类分析原理 167

12.4.2 K-means聚类分析案例 168

12.5 主成分分析 170

12.5.1 主成分分析原理 170

12.5.2 主成分分析案例 171

12.6 因子分析 173

12.6.1 因子分析原理 173

12.6.2 因子分析案例 174

12.7 商品推荐算法 176

12.7.1 商品推荐算法原理 176

12.7.2 商品推荐案例 177

12.8 差异分析 179

12.8.1 多维标度法的原理 179

12.8.2 差异分析案例 180

附录一 国泰安CSMAR数据下载 182

附录二 深圳国泰安教育技术股份有限公司简介 184

参考文献 186