大数据应用人才培养系列教材 数据清洗PDF电子书下载
- 电子书积分:10 积分如何计算积分?
- 作 者:刘鹏,张燕,李法平,陈潇潇著
- 出 版 社:北京:清华大学出版社
- 出版年份:2018
- ISBN:9787302493273
- 页数:238 页
第1章 数据清洗概述 1
1.1 数据清洗简介 1
1.1.1 数据科学过程 1
1.1.2 数据清洗定义 2
1.1.3 数据清洗任务 3
1.1.4 数据清洗流程 4
1.1.5 数据清洗环境 5
1.1.6 数据清洗实例说明 6
1.2 数据标准化 7
1.2.1 数据标准化概念 7
1.2.2 数据标准化常用方法 8
1.3 数据仓库简介 9
1.3.1 数据仓库定义 9
1.3.2 数据仓库组成要素 10
1.3.3 数据仓库分类 11
1.3.4 数据仓库相关技术 12
1.3.5 常用工具简介 13
1.4 习题 14
第2章 数据格式与编码 16
2.1 文件文本格式 16
2.1.1 常见文本格式 17
2.1.2 xls及xlsx文件格式 18
2.1.3 JSON文本格式 19
2.1.4 HTML和XML文本格式 19
2.2 数据编码 20
2.2.1 数据类型 21
2.2.2 数据类型间转换 25
2.2.3 字符编码 26
2.2.4 空值和乱码 28
2.3 数据转换 28
2.3.1 电子表格转换 29
2.3.2 RDBMS数据转换 30
2.4 习题 30
第3章 基本技术方法 31
3.1 ETL入门 31
3.1.1 ETL解决方案 31
3.1.2 ETL基本构成 33
3.1.3 ETL技术选型 35
3.2 技术路线 35
3.2.1 文本清洗路线 35
3.2.2 RDBMS清洗路线 36
3.2.3 Web内容清洗路线 36
3.3 ETL工具 37
3.3.1 ETL功能 37
3.3.2 开源ETL工具 38
3.4 ETL子系统 39
3.4.1 抽取 39
3.4.2 清洗和更正数据 39
3.4.3 数据发布 40
3.4.4 管理ETL 41
3.5 习题 41
第4章 数据清洗常用工具及基本操作 42
4.1 Microsoft Excel数据清洗基本操作 42
4.1.1 Excel数据清洗概述 42
4.1.2 Excel数据清洗 53
4.2 Kettle简介及基本操作 57
4.2.1 Kettle软件概述 57
4.2.2 Kettle基本操作 60
4.2.3 Kettle数据清洗实例操作 64
4.3 OpenRefine简介及基本操作 68
4.3.1 OpenRefine软件概述 69
4.3.2 OpenRefine基本操作 70
4.3.3 OpenRefine数据清洗实例操作 73
4.4 DataWrangler简介及基本操作 80
4.4.1 DataWrangler软件概述 80
4.4.2 DataWrangler基本操作 81
4.4.3 DataWrangler数据清洗实例操作 82
4.5 Hawk简介及基本操作 86
4.5.1 Hawk软件概述 86
4.5.2 Hawk基本操作 88
4.5.3 Hawk数据清洗实例操作 91
4.6 上机练习与实训 98
4.7 习题 103
第5章 数据抽取 104
5.1 文本文件抽取 104
5.1.1 制表符文本抽取 107
5.1.2 CSV文件抽取 111
5.2 Web数据抽取 114
5.2.1 HTML文件抽取 114
5.2.2 JSON数据抽取 116
5.2.3 XML数据抽取 120
5.3 数据库数据抽取 123
5.3.1 数据导入导出 123
5.3.2 ETL工具抽取 124
5.3.3 SQL到NoSQL抽取 127
5.4 上机练习与实训 135
5.5 习题 143
第6章 数据转换与加载 144
6.1 数据清洗转换 144
6.1.1 数据清洗 145
6.1.2 数据检验 151
6.1.3 错误处理 156
6.2 数据质量评估 161
6.2.1 数据评估指标 161
6.2.2 审计数据 163
6.3 数据加载 164
6.3.1 数据加载的概念 164
6.3.2 数据加载的方式 164
6.3.3 批量数据加载 165
6.3.4 数据加载异常处理 165
6.4 上机练习与实训 166
6.5 习题 173
第7章 采集Web数据实例 175
7.1 网页结构 175
7.1.1 DOM模型 175
7.1.2 正则表达式 178
7.2 网络爬虫 181
7.2.1 网络爬虫简介 181
7.2.2 网络爬虫异常处理 189
7.3 行为日志采集 190
7.3.1 用户实时行为数据采集 190
7.3.2 用户实时行为数据分析 193
7.4 上机练习与实训 195
7.5 习题 198
第8章 清洗RDBMS数据实例 199
8.1 准备工作 199
8.1.1 准备待清洗的数据集 200
8.1.2 搭建操作环境 200
8.1.3 数据导入MySQL 201
8.2 数据库数据清洗 205
8.2.1 缺失值清洗 205
8.2.2 格式内容清洗 209
8.2.3 逻辑错误清洗 214
8.2.4 非需求数据清洗 217
8.3 数据脱敏处理 218
8.4 习题 222
参考文献 223
附录A 大数据和人工智能实验环境 224
附录B Hadoop环境要求 234
附录C 名词解释 236
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《名医教你练走颈肩腰腿痛》许学猛 2018
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《微生物培养与显微检验》李晶主编 2018
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《博士教你识中药》(中国)黄汉超 2019
- 《中风偏瘫 脑萎缩 痴呆 最新治疗原则与方法》孙作东著 2004
- 《水面舰艇编队作战运筹分析》谭安胜著 2009
- 《王蒙文集 新版 35 评点《红楼梦》 上》王蒙著 2020
- 《TED说话的力量 世界优秀演讲者的口才秘诀》(坦桑)阿卡什·P.卡里亚著 2019
- 《燕堂夜话》蒋忠和著 2019
- 《经久》静水边著 2019
- 《魔法销售台词》(美)埃尔默·惠勒著 2019
- 《微表情密码》(波)卡西亚·韦佐夫斯基,(波)帕特里克·韦佐夫斯基著 2019
- 《看书琐记与作文秘诀》鲁迅著 2019
- 《酒国》莫言著 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019