数据科学与大数据技术导论实验PDF电子书下载
- 电子书积分:10 积分如何计算积分?
- 作 者:陈明编著
- 出 版 社:北京:北京师范大学出版社
- 出版年份:2018
- ISBN:9787303234509
- 页数:217 页
实验1 Linux操作系统部署 1
1.1 实验目的 1
1.2 实验要求 1
1.3 实验原理 1
1.3.1 Linux操作系统 1
1.3.2 虚拟机 2
1.4 Linux安装方法 3
1.4.1 Ubuntu安装方法 3
1.4.2 RHEL安装方法 12
1.4.3 Linux基本命令使用方法 21
1.5 实验内容 22
1.6 实验总结 22
1.7 思考拓展 22
实验2 Hadoop开发环境部署 23
2.1 实验目的 23
2.2 实验要求 23
2.3 实验原理 23
2.3.1 OpenSSH 24
2.3.2 Hadoop处理平台 27
2.3.3 MapReduce分布计算模型 29
2.3.4 Eclipse集成开发环境 31
2.4 Hadoop开发环境部署方法 31
2.4.1 安装SSH协议 31
2.4.2 安装OpenJDK 1.8开发环境 32
2.4.3 安装Hadoop系统 33
2.4.4 伪分布式Hadoop环境部署 35
2.4.5 集成开发环境Eclipse部署 39
2.4.6 Eclipse开发环境的使用方法 42
2.5 实验内容 49
2.6 实验总结 49
2.7 思考拓展 49
实验3 网页数据获取 50
3.1 实验目的 50
3.2 实验要求 50
3.3 实验原理 50
3.3.1 网络爬虫的工作过程 51
3.3.2 通用网络爬虫 51
3.3.3 聚焦网络爬虫 53
3.3.4 数据抓取目标的定义 56
3.3.5 网页分析算法 57
3.3.6 更新策略 59
3.3.7 分布式爬虫的系统结构 60
3.3.8 ForeSpider数据采集系统 62
3.3.9 GooSeeker集搜客爬虫软件 67
3.4 数据获取方法 68
3.4.1 前嗅ForeSpider爬虫软件数据采集过程 68
3.4.2 基于GooSeeker集搜客爬虫软件的数据采集 79
3.5 实验内容 85
3.6 实验总结 85
3.7 思考拓展 86
实验4 大数据去重 87
4.1 实验目的 87
4.2 实验要求 87
4.3 实验原理 87
4.3.1 数据去重的步骤 87
4.3.2 按时间的维度去重 88
4.3.3 按字段相似度的去重 89
4.4 Hadoop数据去重方法 89
4.4.1 进入/usr/local/hadoop目录 89
4.4.2 准备数据 89
4.4.3 修改/usr/local/hadoop/etc/hadoop/目录下的Hadoop配置文件 91
4.4.4 NameNode的格式化 92
4.4.5 在集成开发环境Eclipse中实现Hadoop数据去重 92
4.5 实验内容 104
4.6 实验总结 104
4.7 思考拓展 104
实验5 大数据最大值计算 105
5.1 实验目的 105
5.2 实验要求 105
5.3 实验原理 105
5.4 Hadoop最大值计算方法 105
5.4.1 进入/usr/local/hadoop目录 106
5.4.2 准备数据 106
5.4.3 修改/usr/local/hadoop/etc/hadoop/目录下的Hadoop配置文件 107
5.4.4 NameNode的格式化 107
5.4.5 在集成开发环境Eclipse中Hadoop最大值计算 107
5.5 实验内容 117
5.6 实验总结 117
5.7 思考拓展 118
实验6 大数据排序 119
6.1 实验目的 119
6.2 实验要求 119
6.3 实验原理 119
6.3.1 排序方法分类 119
6.3.2 排序方法 120
6.3.3 大数据排序算法 121
6.3.4 基于MapReduce排序过程 122
6.4 Hadoop数据排序方法 123
6.4.1 进入/usr/local/hadoop目录 124
6.4.2 准备数据 124
6.4.3 修改/usr/local/hadoop/etc/hadoop/目录下的Hadoop配置文件 125
6.4.4 NameNode的格式化 125
6.4.5 在集成开发环境Eclipse中实现Hadoop 125
6.5 实验内容 137
6.6 实验总结 137
6.7 思考拓展 137
实验7 大数据倒排索引 138
7.1 实验目的 138
7.2 实验要求 138
7.3 实验原理 138
7.3.1 倒排索引基本概念 139
7.3.2 倒排索引文件实例分析 140
7.3.3 倒排索引处理过程 142
7.4 Hadoop倒排索引方法 144
7.4.1 进入/usr/local/hadoop目录 144
7.4.2 准备数据 145
7.4.3 修改/usr/local/hadoop/etc/hadoop/目录下的Hadoop配置文件 145
7.4.4 NameNode的格式化 145
7.4.5 在集成开发环境Eclipse中实现Hadoop倒排索引 146
7.5 实验内容 158
7.6 实验总结 158
7.7 思考拓展 158
实验8 大数据平均值计算 159
8.1 实验目的 159
8.2 实验要求 159
8.3 实验原理 159
8.3.1 算术平均数 159
8.3.2 平均值 160
8.4 大数据平均值计算方法 161
8.4.1 进入/usr/local/hadoop目录 161
8.4.2 准备数据 161
8.4.3 修改/usr/local/hadoop/etc/hadoop/目录下的Hadoop配置文件 162
8.4.4 NameNode的格式化 162
8.4.5 在集成开发环境Eclipse中实现Hadoop平均值 162
8.5 实验内容 174
8.6 实验总结 174
8.7 思考拓展 174
实验9 大数据单表关联 175
9.1 实验目的 175
9.2 实验要求 175
9.3 实验原理 175
9.3.1 单表关联的概念 175
9.3.2 MapReduce单表关联计算过程 176
9.4 Hadoop单表关联方法 180
9.4.1 进入/usr/local/hadoop目录 180
9.4.2 准备数据 181
9.4.3 修改/usr/local/hadoop/etc/hadoop/目录下的Hadoop配置文件 181
9.4.4 NameNode的格式化 181
9.4.5 在集成开发环境Eclipse中实现大数据平均值 181
9.5 实验内容 193
9.6 实验总结 193
9.7 思考拓展 194
实验10 大数据可视化 195
10.1 实验目的 195
10.2 实验要求 195
10.3 实验原理 195
10.3.1 数据的可视化展现 195
10.3.2 Superset处理平台 198
10.4 基于数据可视化的方法 198
10.4.1 基于ECharts.js可视化方法 198
10.4.2 基于Superset数据可视化的方法 201
10.5 实验内容 216
10.6 实验总结 216
10.7 思考拓展 216
参考文献 217
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《药剂学实验操作技术》刘芳,高森主编 2019
- 《《走近科学》精选丛书 中国UFO悬案调查》郭之文 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《“十三五”规划教材 中药鉴定学实验 供中药学 药学及相关专业使用 第2版》吴啟南 2018
- 《物联网导论》张翼英主编 2020
- 《有机化学实验》雷文 2015
- 《全国普通高等中医药院校药学类专业十三五规划教材 第二轮规划教材 分析化学实验 第2版》池玉梅 2018
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《流体力学》张扬军,彭杰,诸葛伟林编著 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019