《数据科学与大数据技术导论实验》PDF下载

  • 购买积分:10 如何计算积分?
  • 作  者:陈明编著
  • 出 版 社:北京:北京师范大学出版社
  • 出版年份:2018
  • ISBN:9787303234509
  • 页数:217 页
图书介绍:大数据技术是一个面向实际应用的技术。从大数据中获取有价值信息是大数据技术的精髓。本书详细介绍了数据科学与大数据技术的主要内容,全书分为15章,主要包括数据科学与大数据技术概述、数据处理与存储、数据抽取技术、数据清洗技术、数据去噪与标准化技术、大数据约简技术、数据集成技术、数据分析技术、数据挖掘技术、分析结果解释、大数据机器学习、大数据推荐技术、社会网络、大数据离线计算、大数据流式计算等。本书在内容上,注重概念、方法介绍,实例丰富、语言精练、逻辑层次清晰,可作为大学《数据科学与大数据技术》专业和相近专业的教材,也可以作为科技人员的参考书。

实验1 Linux操作系统部署 1

1.1 实验目的 1

1.2 实验要求 1

1.3 实验原理 1

1.3.1 Linux操作系统 1

1.3.2 虚拟机 2

1.4 Linux安装方法 3

1.4.1 Ubuntu安装方法 3

1.4.2 RHEL安装方法 12

1.4.3 Linux基本命令使用方法 21

1.5 实验内容 22

1.6 实验总结 22

1.7 思考拓展 22

实验2 Hadoop开发环境部署 23

2.1 实验目的 23

2.2 实验要求 23

2.3 实验原理 23

2.3.1 OpenSSH 24

2.3.2 Hadoop处理平台 27

2.3.3 MapReduce分布计算模型 29

2.3.4 Eclipse集成开发环境 31

2.4 Hadoop开发环境部署方法 31

2.4.1 安装SSH协议 31

2.4.2 安装OpenJDK 1.8开发环境 32

2.4.3 安装Hadoop系统 33

2.4.4 伪分布式Hadoop环境部署 35

2.4.5 集成开发环境Eclipse部署 39

2.4.6 Eclipse开发环境的使用方法 42

2.5 实验内容 49

2.6 实验总结 49

2.7 思考拓展 49

实验3 网页数据获取 50

3.1 实验目的 50

3.2 实验要求 50

3.3 实验原理 50

3.3.1 网络爬虫的工作过程 51

3.3.2 通用网络爬虫 51

3.3.3 聚焦网络爬虫 53

3.3.4 数据抓取目标的定义 56

3.3.5 网页分析算法 57

3.3.6 更新策略 59

3.3.7 分布式爬虫的系统结构 60

3.3.8 ForeSpider数据采集系统 62

3.3.9 GooSeeker集搜客爬虫软件 67

3.4 数据获取方法 68

3.4.1 前嗅ForeSpider爬虫软件数据采集过程 68

3.4.2 基于GooSeeker集搜客爬虫软件的数据采集 79

3.5 实验内容 85

3.6 实验总结 85

3.7 思考拓展 86

实验4 大数据去重 87

4.1 实验目的 87

4.2 实验要求 87

4.3 实验原理 87

4.3.1 数据去重的步骤 87

4.3.2 按时间的维度去重 88

4.3.3 按字段相似度的去重 89

4.4 Hadoop数据去重方法 89

4.4.1 进入/usr/local/hadoop目录 89

4.4.2 准备数据 89

4.4.3 修改/usr/local/hadoop/etc/hadoop/目录下的Hadoop配置文件 91

4.4.4 NameNode的格式化 92

4.4.5 在集成开发环境Eclipse中实现Hadoop数据去重 92

4.5 实验内容 104

4.6 实验总结 104

4.7 思考拓展 104

实验5 大数据最大值计算 105

5.1 实验目的 105

5.2 实验要求 105

5.3 实验原理 105

5.4 Hadoop最大值计算方法 105

5.4.1 进入/usr/local/hadoop目录 106

5.4.2 准备数据 106

5.4.3 修改/usr/local/hadoop/etc/hadoop/目录下的Hadoop配置文件 107

5.4.4 NameNode的格式化 107

5.4.5 在集成开发环境Eclipse中Hadoop最大值计算 107

5.5 实验内容 117

5.6 实验总结 117

5.7 思考拓展 118

实验6 大数据排序 119

6.1 实验目的 119

6.2 实验要求 119

6.3 实验原理 119

6.3.1 排序方法分类 119

6.3.2 排序方法 120

6.3.3 大数据排序算法 121

6.3.4 基于MapReduce排序过程 122

6.4 Hadoop数据排序方法 123

6.4.1 进入/usr/local/hadoop目录 124

6.4.2 准备数据 124

6.4.3 修改/usr/local/hadoop/etc/hadoop/目录下的Hadoop配置文件 125

6.4.4 NameNode的格式化 125

6.4.5 在集成开发环境Eclipse中实现Hadoop 125

6.5 实验内容 137

6.6 实验总结 137

6.7 思考拓展 137

实验7 大数据倒排索引 138

7.1 实验目的 138

7.2 实验要求 138

7.3 实验原理 138

7.3.1 倒排索引基本概念 139

7.3.2 倒排索引文件实例分析 140

7.3.3 倒排索引处理过程 142

7.4 Hadoop倒排索引方法 144

7.4.1 进入/usr/local/hadoop目录 144

7.4.2 准备数据 145

7.4.3 修改/usr/local/hadoop/etc/hadoop/目录下的Hadoop配置文件 145

7.4.4 NameNode的格式化 145

7.4.5 在集成开发环境Eclipse中实现Hadoop倒排索引 146

7.5 实验内容 158

7.6 实验总结 158

7.7 思考拓展 158

实验8 大数据平均值计算 159

8.1 实验目的 159

8.2 实验要求 159

8.3 实验原理 159

8.3.1 算术平均数 159

8.3.2 平均值 160

8.4 大数据平均值计算方法 161

8.4.1 进入/usr/local/hadoop目录 161

8.4.2 准备数据 161

8.4.3 修改/usr/local/hadoop/etc/hadoop/目录下的Hadoop配置文件 162

8.4.4 NameNode的格式化 162

8.4.5 在集成开发环境Eclipse中实现Hadoop平均值 162

8.5 实验内容 174

8.6 实验总结 174

8.7 思考拓展 174

实验9 大数据单表关联 175

9.1 实验目的 175

9.2 实验要求 175

9.3 实验原理 175

9.3.1 单表关联的概念 175

9.3.2 MapReduce单表关联计算过程 176

9.4 Hadoop单表关联方法 180

9.4.1 进入/usr/local/hadoop目录 180

9.4.2 准备数据 181

9.4.3 修改/usr/local/hadoop/etc/hadoop/目录下的Hadoop配置文件 181

9.4.4 NameNode的格式化 181

9.4.5 在集成开发环境Eclipse中实现大数据平均值 181

9.5 实验内容 193

9.6 实验总结 193

9.7 思考拓展 194

实验10 大数据可视化 195

10.1 实验目的 195

10.2 实验要求 195

10.3 实验原理 195

10.3.1 数据的可视化展现 195

10.3.2 Superset处理平台 198

10.4 基于数据可视化的方法 198

10.4.1 基于ECharts.js可视化方法 198

10.4.2 基于Superset数据可视化的方法 201

10.5 实验内容 216

10.6 实验总结 216

10.7 思考拓展 216

参考文献 217