实验1 Linux操作系统部署 1
1.1 实验目的 1
1.2 实验要求 1
1.3 实验原理 1
1.3.1 Linux操作系统 1
1.3.2 虚拟机 2
1.4 Linux安装方法 3
1.4.1 Ubuntu安装方法 3
1.4.2 RHEL安装方法 12
1.4.3 Linux基本命令使用方法 21
1.5 实验内容 22
1.6 实验总结 22
1.7 思考拓展 22
实验2 Hadoop开发环境部署 23
2.1 实验目的 23
2.2 实验要求 23
2.3 实验原理 23
2.3.1 OpenSSH 24
2.3.2 Hadoop处理平台 27
2.3.3 MapReduce分布计算模型 29
2.3.4 Eclipse集成开发环境 31
2.4 Hadoop开发环境部署方法 31
2.4.1 安装SSH协议 31
2.4.2 安装OpenJDK 1.8开发环境 32
2.4.3 安装Hadoop系统 33
2.4.4 伪分布式Hadoop环境部署 35
2.4.5 集成开发环境Eclipse部署 39
2.4.6 Eclipse开发环境的使用方法 42
2.5 实验内容 49
2.6 实验总结 49
2.7 思考拓展 49
实验3 网页数据获取 50
3.1 实验目的 50
3.2 实验要求 50
3.3 实验原理 50
3.3.1 网络爬虫的工作过程 51
3.3.2 通用网络爬虫 51
3.3.3 聚焦网络爬虫 53
3.3.4 数据抓取目标的定义 56
3.3.5 网页分析算法 57
3.3.6 更新策略 59
3.3.7 分布式爬虫的系统结构 60
3.3.8 ForeSpider数据采集系统 62
3.3.9 GooSeeker集搜客爬虫软件 67
3.4 数据获取方法 68
3.4.1 前嗅ForeSpider爬虫软件数据采集过程 68
3.4.2 基于GooSeeker集搜客爬虫软件的数据采集 79
3.5 实验内容 85
3.6 实验总结 85
3.7 思考拓展 86
实验4 大数据去重 87
4.1 实验目的 87
4.2 实验要求 87
4.3 实验原理 87
4.3.1 数据去重的步骤 87
4.3.2 按时间的维度去重 88
4.3.3 按字段相似度的去重 89
4.4 Hadoop数据去重方法 89
4.4.1 进入/usr/local/hadoop目录 89
4.4.2 准备数据 89
4.4.3 修改/usr/local/hadoop/etc/hadoop/目录下的Hadoop配置文件 91
4.4.4 NameNode的格式化 92
4.4.5 在集成开发环境Eclipse中实现Hadoop数据去重 92
4.5 实验内容 104
4.6 实验总结 104
4.7 思考拓展 104
实验5 大数据最大值计算 105
5.1 实验目的 105
5.2 实验要求 105
5.3 实验原理 105
5.4 Hadoop最大值计算方法 105
5.4.1 进入/usr/local/hadoop目录 106
5.4.2 准备数据 106
5.4.3 修改/usr/local/hadoop/etc/hadoop/目录下的Hadoop配置文件 107
5.4.4 NameNode的格式化 107
5.4.5 在集成开发环境Eclipse中Hadoop最大值计算 107
5.5 实验内容 117
5.6 实验总结 117
5.7 思考拓展 118
实验6 大数据排序 119
6.1 实验目的 119
6.2 实验要求 119
6.3 实验原理 119
6.3.1 排序方法分类 119
6.3.2 排序方法 120
6.3.3 大数据排序算法 121
6.3.4 基于MapReduce排序过程 122
6.4 Hadoop数据排序方法 123
6.4.1 进入/usr/local/hadoop目录 124
6.4.2 准备数据 124
6.4.3 修改/usr/local/hadoop/etc/hadoop/目录下的Hadoop配置文件 125
6.4.4 NameNode的格式化 125
6.4.5 在集成开发环境Eclipse中实现Hadoop 125
6.5 实验内容 137
6.6 实验总结 137
6.7 思考拓展 137
实验7 大数据倒排索引 138
7.1 实验目的 138
7.2 实验要求 138
7.3 实验原理 138
7.3.1 倒排索引基本概念 139
7.3.2 倒排索引文件实例分析 140
7.3.3 倒排索引处理过程 142
7.4 Hadoop倒排索引方法 144
7.4.1 进入/usr/local/hadoop目录 144
7.4.2 准备数据 145
7.4.3 修改/usr/local/hadoop/etc/hadoop/目录下的Hadoop配置文件 145
7.4.4 NameNode的格式化 145
7.4.5 在集成开发环境Eclipse中实现Hadoop倒排索引 146
7.5 实验内容 158
7.6 实验总结 158
7.7 思考拓展 158
实验8 大数据平均值计算 159
8.1 实验目的 159
8.2 实验要求 159
8.3 实验原理 159
8.3.1 算术平均数 159
8.3.2 平均值 160
8.4 大数据平均值计算方法 161
8.4.1 进入/usr/local/hadoop目录 161
8.4.2 准备数据 161
8.4.3 修改/usr/local/hadoop/etc/hadoop/目录下的Hadoop配置文件 162
8.4.4 NameNode的格式化 162
8.4.5 在集成开发环境Eclipse中实现Hadoop平均值 162
8.5 实验内容 174
8.6 实验总结 174
8.7 思考拓展 174
实验9 大数据单表关联 175
9.1 实验目的 175
9.2 实验要求 175
9.3 实验原理 175
9.3.1 单表关联的概念 175
9.3.2 MapReduce单表关联计算过程 176
9.4 Hadoop单表关联方法 180
9.4.1 进入/usr/local/hadoop目录 180
9.4.2 准备数据 181
9.4.3 修改/usr/local/hadoop/etc/hadoop/目录下的Hadoop配置文件 181
9.4.4 NameNode的格式化 181
9.4.5 在集成开发环境Eclipse中实现大数据平均值 181
9.5 实验内容 193
9.6 实验总结 193
9.7 思考拓展 194
实验10 大数据可视化 195
10.1 实验目的 195
10.2 实验要求 195
10.3 实验原理 195
10.3.1 数据的可视化展现 195
10.3.2 Superset处理平台 198
10.4 基于数据可视化的方法 198
10.4.1 基于ECharts.js可视化方法 198
10.4.2 基于Superset数据可视化的方法 201
10.5 实验内容 216
10.6 实验总结 216
10.7 思考拓展 216
参考文献 217