大数据采集与预处理技术PDF电子书下载
- 电子书积分:9 积分如何计算积分?
- 作 者:刘丽敏,廖志芳,周韵编著
- 出 版 社:长沙:中南大学出版社
- 出版年份:2018
- ISBN:9787548734116
- 页数:176 页
第1章 大数据概述 1
1.1 大数据的概念 1
1.2 大数据关键技术 3
1.3 大数据采集与数据预处理技术 6
1.3.1 大数据采集技术 7
1.3.2 数据预处理技术 8
1.4 小结 9
习 题 9
第2章 数据采集基础 10
2.1 传统数据采集技术 10
2.1.1 数据采集概述 10
2.1.2 数据采集系统架构 11
2.1.3 数据采集关键技术 14
2.2 大数据采集基础 18
2.2.1 数据的发展 18
2.2.2 大数据来源 21
2.2.3 大数据采集技术 26
2.3 小结 32
习题 33
第3章 大数据采集架构 34
3.1 概述 34
3.2 Chukwa数据采集 35
3.3 Flume数据采集 37
3.4 Scribe数据采集 40
3.5 Kafka数据采集 41
3.7 小结 45
习题 46
第4章 大数据迁移技术 47
4.1 数据迁移概念 47
4.2 数据迁移相关技术 48
4.2.1 基于主机的迁移方式 48
4.2.2 基于存储的迁移方式 48
4.2.3 备份恢复的方式 50
4.2.4 基于主机逻辑卷的数据迁移 51
4.2.5 基于数据库的迁移技术 52
4.2.6 服务器虚拟化的迁移 53
4.2.7 其他数据迁移技术 55
4.3 数据迁移工具 56
4.3.1 Apache Sqoop 56
4.3.2 ETL 58
4.4 Kettle数据迁移实例 59
4.5 小结 65
习题 65
第5章 互联网数据抓取与处理技术 66
5.1 网络爬虫概述 66
5.1.1 网络爬虫的概念 66
5.1.2 网络爬虫的抓取策略 67
5.1.3 网页更新策略 68
5.2 常用网络爬虫方法 69
5.2.1 批量型爬虫 70
5.2.2 增量型爬虫 70
5.2.3 垂直型爬虫 70
5.2.4 通用网络爬虫 70
5.2.5 聚焦网络爬虫 71
5.2.6 深层网络爬虫 72
5.2.7 分布式网络爬虫 73
5.3 网络爬虫工具 75
5.3.1 Googlebot 75
5.3.2 百度蜘蛛 76
5.3.3 ApacheNutch 76
5.3.4 火车采集器 77
5.3.5 集搜客 77
5.3.6 八爪鱼采集器 78
5.4 Python爬虫技术 81
5.4.1 Python概述 81
5.4.2 Python爬虫基础 83
5.4.3 Python安装 88
5.4.4 Python爬虫实例 91
5.5 文本数据处理 94
5.5.1 文本分词概述 94
5.5.2 中文分词算法 96
5.5.3 MMSEG分词算法 97
5.5.4 常用中文分词工具 100
5.5.5 网页分析算法 101
5.6 小结 103
习题 103
第6章 数据预处理技术 104
6.1 数据的描述 104
6.1.1 数据对象与属性类型 104
6.1.2 数据的统计描述 106
6.1.3 数据相似性和相异性的度量方法 109
6.2 数据预处理概述 113
6.2.1 数据质量 113
6.2.2 数据预处理的主要任务 114
6.3 数据清洗 115
6.3.1 缺失值处理 115
6.3.2 光滑噪声数据处理 116
6.3.3 检测偏差与纠正偏差 117
6.4 数据集成 118
6.4.1 模式识别和对象匹配 118
6.4.2 冗余问题 119
6.4.3 元组重复 121
6.4.4 数据值冲突的检测与处理 121
6.5 数据归约 122
6.5.1 小波变换 122
6.5.2 主成分分析 123
6.5.3 属性子集选择 123
6.5.4 回归和对数线性模型 124
6.5.5 直方图 125
6.5.6 聚类 126
6.5.7 抽样 126
6.5.8 数据立方体聚集 127
6.6 数据变换 128
6.6.1 通过规范化变换数据 129
6.6.2 通过离散化变换数据 130
6.6.3 标称数据的概念分层变换 131
6.7 小结 132
习题 132
第7章 大数据分析实例 134
7.1 Hadoop相关理论知识 134
7.1.1 Hadoop生态系统 135
7.1.2 HDFS 139
7.1.3 MapReduce 143
7.1.4 HBase 149
7.1.5 Hive 152
7.1.6 Yarn 156
7.1.7 ZooKeeper和Sqoop 159
7.2 实验内容 161
7.2.1 技术方案与实验环境 161
7.2.2 实验环境搭建 161
7.2.3 实验过程 167
7.3 小结 173
习题 174
参考文献 175
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《近代中国分省人文地理影像采集与研究 甘肃》《近代中国分省人文地理影像采集与研究》编写组 2019
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《近代中国分省人文地理影像采集与研究 内蒙古》《近代中国分省人文地理影像采集与研究》编写组 2019
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《流体力学》张扬军,彭杰,诸葛伟林编著 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《大学化学实验》李爱勤,侯学会主编 2016
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017