大数据技术概论PDF电子书下载
- 电子书积分:11 积分如何计算积分?
- 作 者:陈明编著
- 出 版 社:北京:中国铁道出版社
- 出版年份:2019
- ISBN:9787113248185
- 页数:264 页
第1章 概述 1
1.1 数据科学 2
1.1.1 数据科学的产生与发展 2
1.1.2 数据科学的相关术语 2
1.1.3 数据科学的主要内容 3
1.1.4 数据科学的研究过程与体系框架 4
1.1.5 数据科学、数据技术与数据工程 6
1.1.6 大数据问题 6
1.2 大数据的生态环境 7
1.2.1 互联网世界 7
1.2.2 物理世界 9
1.3 大数据的概念 9
1.3.1 数据容量 10
1.3.2 数据类型 11
1.3.3 价值密度 11
1.3.4 速度 11
1.3.5 真实性 11
1.4 大数据的性质 11
1.4.1 非结构性 12
1.4.2 不完备性 13
1.4.3 时效性 13
1.4.4 安全性 13
1.4.5 可靠性 13
1.5 大数据处理周期 13
1.5.1 大数据处理全过程 14
1.5.2 大数据技术的特征 15
1.5.3 大数据的一些热点技术 17
1.6 科学研究范式 18
1.6.1 科学研究范式的产生与发展 18
1.6.2 数据密集型科学研究第四范式 19
小结 23
第2章 大数据处理平台 24
2.1 Hadoop大数据处理平台 24
2.1.1 离线计算概述 25
2.1.2 MapReduce分布编程模型 26
2.1.3 基于Hadoop的分布计算 27
2.1.4 MapReduce程序设计分析 31
2.1.5 Hadoop环境部署与程序运行 36
2.2 Storm大数据处理平台 42
2.2.1 流式数据的概念与特征 43
2.2.2 大数据的计算模式 45
2.2.3 流式数据处理技术的应用 46
2.2.4 流式计算的系统架构 50
2.2.5 Storm流处理过程 52
2.2.6 单词计数topology 56
2.3 Spark大数据处理平台 58
2.3.1 交互式处理系统的问题 58
2.3.2 Scala编程语言简介 58
2.3.3 Spark的主要特点 59
2.3.4 软件栈 60
2.3.5 核心概念 61
2.3.6 弹性分布式数据集RDD 62
2.3.7 单词计数实例分析 66
小结 67
第3章 大数据获取与存储管理技术 68
3.1 大数据获取 69
3.1.1 大数据获取的挑战 69
3.1.2 传统的数据获取与大数据获取的区别 69
3.2 领域数据 70
3.2.1 文本数据 70
3.2.2 语音数据 71
3.2.3 图片数据 71
3.2.4 摄像头视频数据 71
3.2.5 图像数字化数据 71
3.2.6 图形数字化数据 71
3.2.7 空间数据 72
3.3 网站数据 72
3.3.1 网站内部数据 73
3.3.2 网站外部数据 73
3.3.3 移动网站数据 73
3.4 网络爬虫 73
3.4.1 网络爬虫的工作过程 74
3.4.2 通用网络爬虫 74
3.4.3 聚焦网络爬虫 77
3.4.4 数据抓取目标的定义 79
3.4.5 网页分析算法 80
3.4.6 更新策略 81
3.4.7 分布式爬虫的系统结构 82
3.5 大数据存储 84
3.5.1 大数据存储模型 84
3.5.2 大数据存储问题 84
3.5.3 大数据存储方式 85
3.6 大数据存储管理技术 86
3.6.1 数据容量问题 86
3.6.2 大图数据 87
3.6.3 数据存储管理 88
3.7 NoSQL和NewSQL 89
3.7.1 NoSQL 90
3.7.2 NewSQL数据库 93
3.7.3 不同数据库架构混合应用模式 93
3.8 分布式文件系统 94
3.8.1 评价指标 94
3.8.2 HDFS文件系统 95
3.8.3 NFS文件系统 96
3.9 虚拟存储技术 97
3.9.1 虚拟存储的特点 98
3.9.2 虚拟存储的应用 98
3.10 云存储技术 99
3.10.1 云存储原理 99
3.10.2 网络结构 99
3.10.3 云的分类 99
小结 100
第4章 大数据抽取技术 101
4.1 大数据抽取技术概述 101
4.1.1 数据抽取的定义 102
4.1.2 数据映射与数据迁移 102
4.1.3 数据抽取程序 103
4.1.4 抽取、转换和加载 103
4.1.5 数据抽取方式 104
4.2 增量数据抽取技术 104
4.2.1 增量抽取的特点与策略 105
4.2.2 基于触发器的增量抽取方式 105
4.2.3 基于时间戳的增量抽取方式 105
4.2.4 全表删除插入方式 106
4.2.5 全表比对抽取方式 106
4.2.6 日志表方式 107
4.2.7 系统日志分析方式 107
4.2.8 各种数据抽取机制的比较与分析 107
4.3 非结构化数据抽取 109
4.3.1 非结构化数据类型 109
4.3.2 非结构化数据模型 109
4.3.3 非结构化数据组织 111
4.3.4 纯文本抽取通用程序库 112
4.4 基于Hadoop平台的数据抽取 113
小结 114
第5章 大数据清洗技术 115
5.1 数据质量与数据清洗 115
5.1.1 数据质量 116
5.1.2 数据质量提高技术 118
5.1.3 数据清洗算法的标准 120
5.1.4 数据清洗的过程与模型 120
5.2 不完整数据清洗 121
5.2.1 基本方法 121
5.2.2 基于k-NN近邻缺失数据的填充算法 123
5.3 异常数据清洗 124
5.3.1 异常值产生的原因 125
5.3.2 统计方法 125
5.3.3 基于邻近度的离群点检测 126
5.4 重复数据清洗 127
5.4.1 使用字段相似度识别重复值算法 127
5.4.2 搜索引擎快速去重算法 128
5.5 文本清洗 128
5.5.1 字符串匹配算法 129
5.5.2 文本相似度度量 131
5.5.3 文档去重算法 135
5.6 数据清洗的实现 135
5.6.1 数据清洗的步骤 135
5.6.2 基于MapReduce的大数据去重 136
小结 138
第6章 大数据去噪与标准化 139
6.1 基本的数据转换方法 139
6.1.1 对数转换 139
6.1.2 平方根转换 140
6.1.3 平方转换 140
6.1.4 倒数变换 140
6.2 数据平滑技术 140
6.2.1 移动平均法 141
6.2.2 指数平滑法 142
6.2.3 分箱平滑法 146
6.3 数据规范化 148
6.3.1 最小-最大规范化方法 148
6.3.2 z分数规范化方法 149
6.3.3 小数定标规范化方法 149
6.4 数据泛化处理 150
6.4.1 空间数据支配泛化算法 150
6.4.2 非空间数据支配泛化方法 151
6.4.3 统计信息网格方法 151
小结 151
第7章 大数据约简与集成技术 152
7.1 数据约简概述 153
7.1.1 数据约简定义 153
7.1.2 数据约简方式 153
7.2 特征约简 153
7.2.1 特征提取 154
7.2.2 特征选择 154
7.3 样本约简 155
7.3.1 简单随机抽样 155
7.3.2 系统抽样 155
7.3.3 分层抽样 155
7.4 数据立方体聚集 155
7.4.1 多维性 156
7.4.2 数据聚集 156
7.5 维约简 157
7.5.1 维约简的目的 157
7.5.2 维约简的基本策略 158
7.5.3 维约简的分类 158
7.6 属性子集选择算法 159
7.6.1 逐步向前选择属性 159
7.6.2 逐步向后删除属性 159
7.6.3 混合式选择 159
7.6.4 判定树归纳 159
7.7 数据压缩 160
7.7.1 离散小波变换方法 160
7.7.2 主成分分析压缩方法 161
7.8 数值约简 162
7.8.1 有参数值约简 162
7.8.2 无参数值约简 162
7.9 数据集成的概念与相关问题 163
7.9.1 数据集成的核心问题 165
7.9.2 数据集成的分类 166
7.10 数据迁移 168
7.10.1 在组织内部移动数据 169
7.10.2 非结构化数据集成 169
7.10.3 将处理移动到数据端 170
7.11 数据集成模式 171
7.11.1 联邦数据库集成模式 171
7.11.2 中间件集成模式 172
7.11.3 数据仓库集成模式 173
7.12 数据集成系统 173
7.12.1 全局模式 174
7.12.2 语义映射 175
7.12.3 查询重写 175
7.13 数据聚类集成 175
7.13.1 数据聚类集成概述 175
7.13.2 高维数据聚类集成 176
小结 178
第8章 大数据分析与挖掘技术 179
8.1 大数据分析概述 180
8.1.1 大数据分析的类型 180
8.1.2 数字特征 182
8.1.3 统计方法论 184
8.1.4 模型与构建 186
8.1.5 R语言 186
8.2 统计分析方法 188
8.2.1 基本方法 188
8.2.2 常用分析方法 194
8.3 数据挖掘理论基础 211
8.3.1 数据挖掘是面向应用的技术 211
8.3.2 数据挖掘的理论基础 212
8.3.3 基于数据存储方式的数据挖掘 212
8.4 关联规则挖掘 214
8.4.1 频繁项目集生成算法 215
8.4.2 关联规则挖掘质量 217
8.5 分类方法 218
8.5.1 基于距离的分类算法 219
8.5.2 KNN算法的MapReduce实现 220
8.5.3 决策树分类方法 220
8.6 聚类方法 223
8.6.1 聚类定义与分类 223
8.6.2 距离与相似性的度量 225
8.6.3 划分聚类方法 226
8.6.4 层次聚类方法 228
8.7 序列模式挖掘与文本数据挖掘 229
8.7.1 时间序列预测的常用方法 229
8.7.2 序列模式挖掘 230
8.8 非结构化文本数据挖掘 231
8.8.1 用户反馈文本 232
8.8.2 用户反馈文本挖掘的一般过程 232
8.8.3 文本的自然语言处理 234
8.9 基于MapReduce的分析与挖掘实例 235
8.9.1 大数据平均值计算 235
8.9.2 大数据排序 236
8.9.3 倒排索引 237
小结 241
第9章 大数据分析结果解释与展现 242
9.1 数据分析结果解释的目的与内容 243
9.1.1 解释的目的 243
9.1.2 检查和验证假设 243
9.1.3 追踪分析过程 244
9.2 数据的基本展现方式 245
9.2.1 基于时间变化的可视化展现 245
9.2.2 由大及小的可视化展现 245
9.2.3 由小及大的可视化展现 246
9.2.4 突出对比的可视化展现 246
9.2.5 地域空间可视化展现 246
9.2.6 概念可视化展现 248
9.2.7 气泡图可视化展现 248
9.2.8 注重交叉点的数据可视化展现 248
9.2.9 剖析原因的数据可视化展现 248
9.2.10 描绘出异常值的可视化展现 249
9.3 大数据可视化 249
9.3.1 文本可视化 249
9.3.2 网络(图)可视化 250
9.3.3 时空数据可视化 252
9.3.4 多维数据可视化 252
9.4 大数据可视分析 253
9.4.1 可视分析的理论基础 254
9.4.2 大数据可视分析技术 257
9.5 数据可视化实现 260
小结 262
参考文献 263
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《钒产业技术及应用》高峰,彭清静,华骏主编 2019
- 《现代水泥技术发展与应用论文集》天津水泥工业设计研究院有限公司编 2019
- 《全国高等中医药行业“十三五”创新教材 中医药学概论》翟华强 2019
- 《异质性条件下技术创新最优市场结构研究 以中国高技术产业为例》千慧雄 2019
- 《Prometheus技术秘笈》百里燊 2019
- 《中央财政支持提升专业服务产业发展能力项目水利工程专业课程建设成果 设施农业工程技术》赵英编 2018
- 《药剂学实验操作技术》刘芳,高森主编 2019
- 《林下养蜂技术》罗文华,黄勇,刘佳霖主编 2017
- 《脱硝运行技术1000问》朱国宇编 2019
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《流体力学》张扬军,彭杰,诸葛伟林编著 2019
- 《中国当代乡土小说文库 本乡本土》(中国)刘玉堂 2019
- 《异质性条件下技术创新最优市场结构研究 以中国高技术产业为例》千慧雄 2019
- 《中国铁路人 第三届现实主义网络文学征文大赛一等奖》恒传录著 2019
- 《莼江曲谱 2 中国昆曲博物馆藏稀见昆剧手抄曲谱汇编之一》郭腊梅主编;孙伊婷副主编;孙文明,孙伊婷编委;中国昆曲博物馆编 2018
- 《中国制造业绿色供应链发展研究报告》中国电子信息产业发展研究院 2019
- 《中国陈设艺术史》赵囡囡著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《《走近科学》精选丛书 中国UFO悬案调查》郭之文 2019
- 《清至民国中国西北戏剧经典唱段汇辑 第8卷》孔令纪 2018
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018