第一部分 大数据简介 3
第1章 大数据概述 3
1.1 大数据的概念 3
1.2 大数据的特征 4
1.3 大数据的产生 4
1.4 大数据应用案例 4
第2章 大数据相关技术 6
2.1 数据采集和准备 6
2.2 分布式数据库 7
2.3 分布式数据分析框架 9
2.3.1 Hadoop 9
2.3.2 HDFS 10
2.3.3 HBase 11
2.3.4 Hive 11
2.3.5 MapReduce 11
2.3.6 Strom 12
2.4 大数据分析与R 13
2.4.1 RHadoop 13
2.4.2 RHIPE 15
2.4.3 RHive 15
2.4.4 RHBase 16
2.5 国泰安的大数据 16
2.5.1 大数据实验室建设 16
2.5.2 大数据分析平台 19
第二部分 R 语言 23
第3章 R语言简介 23
3.1 R语言概述 23
3.2 R的下载、安装和使用 24
3.2.1 RGui界面 24
3.2.2 RStudio界面 27
3.2.3 R的运行 29
3.2.4 工作目录和工作空间 30
3.2.5 R语言的帮助 32
3.3 R的包 33
3.3.1 包的获取 33
3.3.2 包的安装 36
3.3.3 包的加载 40
3.3.4 包的使用 41
第4章 R语言基本操作 42
4.1 数据结构 42
4.2 数据的基本操作 43
4.2.1 赋值和创建 43
4.2.2 数据的运算 49
4.2.3 数据的导入 50
4.3 数据的管理 52
4.3.1 数据排序 52
4.3.2 数据集的合并 53
4.3.3 剔除变量 54
4.3.4 数据集提取 54
4.3.5 subset函数 55
4.4 常用函数 56
第5章 R语言绘图 57
5.1 绘图参数 57
5.1.1 符号、线条与颜色 59
5.1.2 标题、坐标轴与图例 61
5.1.3 文本属性 63
5.1.4 图形的组合 65
5.2 高级绘图函数 66
5.2.1 通用二维图 67
5.2.2 饼图 67
5.2.3 箱线图 68
5.2.4 条形图 71
5.2.5 直方图 72
5.2.6 核密度图 74
5.2.7 点图 76
5.3 低级绘图函数 77
第6章 R语言数据分析 79
6.1 数据处理基础函数 79
6.1.1 数学函数 79
6.1.2 统计函数 80
6.1.3 概率函数 81
6.1.4 数据分析实例 81
6.2 描述性统计分析 84
6.2.1 描述统计函数 84
6.2.2 软件包的描述统计 86
6.3 多元统计分析 88
6.3.1 方差分析 89
6.3.2 判别分析 91
6.3.3 聚类分析 92
6.3.4 主成分分析 94
6.3.5 因子分析 97
6.3.6 典型相关分析 101
第三部分 专题实证研究 107
第7章 金融时间序列建模专题 107
7.1 金融时间序列 107
7.2 ARMA模型 110
7.2.1 ARMA模型简介 110
7.2.2 ARMA模型定阶 110
7.2.3 ARMA模型拟合 111
7.3 GARCH模型 112
7.3.1 GARCH模型简介 112
7.3.2 GARCH模型拟合 112
第8章 动态面板数据专题 114
8.1 GMM估计 114
8.1.1 系统GMM估计 114
8.1.2 GMM估计原理 115
8.2 动态面板数据模型的系统GMM估计 115
第9章 数据挖掘专题 121
9.1 关联规则 121
9.2 降维分析 122
9.3 社交网络分析 125
9.4 贝叶斯分类法 128
9.4.1 贝叶斯定理 128
9.4.2 贝叶斯分类实例 128
9.5 决策树 130
9.5.1 决策树原理 130
9.5.2 决策树分类实例 131
9.6 人工神经网络 133
9.6.1 三层前馈神经网络原理 133
9.6.2 神经网络分类实例 134
9.7 支持向量机 136
9.7.1 支持向量机原理 136
9.7.2 支持向量机分类实例 137
第10章 信息可视化专题 140
10.1 绘制地图 140
10.1.1 世界地图 141
10.1.2 中国地图 141
10.1.3 公路线图 142
10.2 可视化实例 144
10.2.1 数据 144
10.2.2 ggmap 145
第四部分 RHadoop案例分析 153
第11章 RHadoop的基本操作 153
11.1 数据文件的读取 153
11.2 包的加载 154
11.3 基本函数 155
第12章 RHadoop 环境下案例分析 157
12.1 回归分析 157
12.1.1 回归分析原理 157
12.1.2 线性回归分析案例 158
12.2 Logistic分析 161
12.2.1 Logistic分析原理 161
12.2.2 Logistic分析案例 162
12.3 判别分析 163
12.3.1 线性判别分析原理 163
12.3.2 线性判别分析案例 164
12.4 聚类分析 167
12.4.1 K-means聚类分析原理 167
12.4.2 K-means聚类分析案例 168
12.5 主成分分析 170
12.5.1 主成分分析原理 170
12.5.2 主成分分析案例 171
12.6 因子分析 173
12.6.1 因子分析原理 173
12.6.2 因子分析案例 174
12.7 商品推荐算法 176
12.7.1 商品推荐算法原理 176
12.7.2 商品推荐案例 177
12.8 差异分析 179
12.8.1 多维标度法的原理 179
12.8.2 差异分析案例 180
附录一 国泰安CSMAR数据下载 182
附录二 深圳国泰安教育技术股份有限公司简介 184
参考文献 186