第1章 概述 1
1.1 数据科学 2
1.1.1 数据科学的产生与发展 2
1.1.2 数据科学的相关术语 2
1.1.3 数据科学的主要内容 3
1.1.4 数据科学的研究过程与体系框架 4
1.1.5 数据科学、数据技术与数据工程 7
1.1.6 大数据问题 8
1.2 大数据的生态环境 8
1.2.1 互联网世界 9
1.2.2 物理世界 11
1.3 大数据的概念 12
1.3.1 数据容量 12
1.3.2 数据类型 13
1.3.3 价值密度 13
1.3.4 速度 14
1.3.5 真实性 14
1.4 大数据的性质 14
1.4.1 非结构性 14
1.4.2 不完备性 16
1.4.3 时效性 16
1.4.4 安全性 16
1.4.5 可靠性 16
1.5 大数据处理周期 16
1.5.1 大数据处理的全过程 17
1.5.2 大数据技术的特征 19
1.5.3 大数据的几个热点问题 20
1.6 科学研究范式 21
1.6.1 科学研究范式的产生与发展 22
1.6.2 数据密集型科学研究第四范式 22
本章小结 27
第2章 大数据获取与存储管理技术 28
2.1 大数据获取 29
2.1.1 大数据获取的挑战 29
2.1.2 传统数据获取与大数据获取区别 29
2.2 领域数据的获取 30
2.2.1 文本数据获取 30
2.2.2 语音视频数据获取 31
2.2.3 图片数据获取 31
2.2.4 摄像头视频数据获取 31
2.2.5 图像数字化数据获取 31
2.2.6 图形数字化数据获取 32
2.2.7 020 LBS数据获取 32
2.2.8 空间数据获取 32
2.3 网站数据 34
2.3.1 网站内部数据获取 34
2.3.2 网站外部数据获取 35
2.3.3 移动网站数据获取 36
2.4 大数据存储 37
2.4.1 大数据存储模型 37
2.4.2 大数据存储问题 37
2.4.3 大数据存储方式 38
2.5 大数据的存储管理技术 40
2.5.1 数据容量问题 40
2.5.2 大图数据 40
2.5.3 数据存储管理 42
2.6 NewSQL和NoSQL 43
2.6.1 NoSQL 44
2.6.2 NewSQL 48
2.6.3 混合应用模式 48
2.7 分布式文件系统 49
2.7.1 评价指标 49
2.7.2 HDFS文件系统 50
2.7.3 NFS文件系统 56
2.7.4 FastDFS 57
2.8 虚拟存储技术 59
2.8.1 虚拟存储特点 60
2.8.2 虚拟存储的应用 60
2.9 存储技术 61
2.9.1 云存储原理 61
2.9.2 网络结构 61
2.9.3 云的分类 62
本章小结 63
第3章 大数据抽取技术 64
3.1 数据抽取技术概述 64
3.1.1 数据抽取的定义 65
3.1.2 数据映射与数据迁移 66
3.1.3 数据抽取程序 66
3.1.4 Kettle数据处理工具 67
3.1.5 数据抽取方式 71
3.2 增量数据抽取技术 72
3.2.1 增量抽取特点与策略 72
3.2.2 基于触发器的增量抽取方式 72
3.2.3 基于时间戳的增量抽取方式 74
3.2.4 全表删除插入方式 75
3.2.5 全表比对抽取方式 75
3.2.6 日志表方式 75
3.2.7 系统日志分析方式 76
3.2.8 各种数据抽取机制的比较与分析 76
3.3 非结构化数据抽取 78
3.3.1 非结构化数据类型 78
3.3.2 非结构化数据模型 78
3.3.3 非结构化数据组织 80
3.3.4 纯文本抽取通用程序库 82
本章小结 83
第4章 数据清洗技术 84
4.1 数据质量与数据清洗 84
4.1.1 数据质量 85
4.1.2 数据质量提高技术 87
4.1.3 数据清洗算法的标准 90
4.1.4 数据清洗的过程与模型 91
4.2 不完整数据清洗 92
4.2.1 基本方法 92
4.2.2 基于k-NN近邻缺失数据的填充算法 94
4.3 异常数据清洗 96
4.3.1 异常值产生的原因 96
4.3.2 统计方法 97
4.3.3 基于邻近度的离群点检测 98
4.4 重复数据清洗 99
4.4.1 使用字段相似度识别重复值算法 99
4.4.2 搜索引擎快速去重算法 100
4.5 文本清洗 100
4.5.1 字符串匹配算法 101
4.5.2 文本相似度度量 103
4.6 数据清洗技术的实现 107
4.6.1 数据清洗的步骤 107
4.6.2 数据清洗的工具 108
本章小结 108
第5章 大数据去噪与标准化 109
5.1 基本的数据转换方法 109
5.1.1 对数转换 109
5.1.2 平方根转换 110
5.1.3 平方转换 110
5.1.4 倒数变换 110
5.2 数据平滑技术 111
5.2.1 移动平均法 111
5.2.2 指数平滑法 115
5.2.3 分箱平滑法 120
5.3 数据规范化 121
5.3.1 最小—最大规范化方法 121
5.3.2 z分数规范化方法 122
5.3.3 小数定标规范化方法 122
5.4 数据泛化处理 123
5.4.1 空间数据支配泛化算法 123
5.4.2 非空间数据支配泛化方法 124
5.4.3 统计信息网格方法 124
本章小结 125
第6章 大数据约简技术 126
6.1 数据约简概述 126
6.1.1 数据约简定义 126
6.1.2 数据约简策略 127
6.2 特征约简 127
6.2.1 特征提取 128
6.2.2 特征选择 128
6.2.3 基于主成分分析的特征约简方法 129
6.3 样本约简 130
6.3.1 随机抽样 130
6.3.2 系统抽样 130
6.3.3 分层抽样 130
6.4 数据立方体聚集 131
6.4.1 多维性 131
6.4.2 数据聚集 132
6.5 维约简 133
6.5.1 维约简的定义 133
6.5.2 维约简的分类 134
6.6 属性子集选择算法 136
6.6.1 逐步向前选择属性 136
6.6.2 逐步向后删除属性 136
6.6.3 混合式选择 137
6.6.4 判定树归纳 137
6.7 数据压缩 138
6.7.1 离散小波变换方法 138
6.7.2 主要成分分析压缩方法 139
6.8 数值约简 140
6.8.1 有参数值约简 140
6.8.2 无参数值约简 141
6.9 数值离散化与概念分层 142
6.9.1 基于数值属性的概念分层 142
6.9.2 数值数据的离散化 143
本章小结 150
第7章 大数据集成技术 151
7.1 数据集成技术概述 152
7.1.1 数据集成的概念与相关问题 152
7.1.2 数据集成的核心问题 155
7.1.3 数据集成的分类 156
7.2 数据迁移 158
7.2.1 在组织内部移动数据 159
7.2.2 非结构化数据集成 160
7.2.3 将处理移动到数据端 161
7.3 数据集成模式 161
7.3.1 联邦数据库集成模式 162
7.3.2 中间件集成模式 163
7.3.3 数据仓库集成模式 164
7.4 数据集成系统 165
7.4.1 全局模式 166
7.4.2 语义映射 166
7.4.3 查询重写 167
7.5 数据集成系统的构建 167
7.5.1 模式之间映射关系的生成 167
7.5.2 适应性查询 168
7.5.3 XML 168
7.5.4 P2P数据管理 168
7.6 数据聚类集成 169
7.6.1 数据聚类集成概述 169
7.6.2 高维数据聚类集成 169
7.7 实时数据集成 172
7.7.1 基于中间件层的实时数据集成模式 172
7.7.2 基于数据源层和中间件层的实时数据集成模式 173
7.7.3 基于数据仓库和中间件层的集成模式 174
7.7.4 基于数据网格的实时数据集成模式 175
本章小结 176
第8章 大数据挖掘技术 177
8.1 数据挖掘理论基础 177
8.1.1 数据挖掘是面向实际应用的技术 178
8.1.2 数据挖掘的理论基础 179
8.1.3 基于数据存储方式的数据挖掘 180
8.2 关联规则挖掘 182
8.2.1 经典的频繁项目集生成算法 183
8.2.2 关联规则挖掘质量 185
8.3 分类 186
8.3.1 分类定义与分类步骤 186
8.3.2 基于距离的分类算法 187
8.3.3 决策树分类方法 188
8.4 聚类方法 191
8.4.1 距离与相似性的度量 193
8.4.2 划分聚类方法 194
8.4.3 层次聚类方法 196
8.5 序列模式挖掘 196
8.5.1 时间序列预测的常用方法 197
8.5.2 序列模式挖掘 198
8.6 Web挖掘技术 200
8.6.1 Web内容挖掘方法 200
8.6.2 Web访问信息挖掘方法 202
8.6.3 Web结构挖掘方法 204
8.7 非结构化文本数据挖掘 206
8.7.1 用户反馈文本 206
8.7.2 用户反馈文本挖掘的一般过程 207
8.7.3 文本的自然语言处理 209
本章小结 210
第9章 大数据分析 211
9.1 大数据分析定义与方法 211
9.1.1 大数据分析的类型 212
9.1.2 数字特征 214
9.1.3 统计方法论 217
9.1.4 模型与构建 219
9.1.5 R语言 221
9.2 统计分析的基本方法 224
9.2.1 指标对比分析 224
9.2.2 分组分析 225
9.2.3 综合评价分析 225
9.2.4 指数分析 226
9.2.5 平衡分析 226
9.2.6 趋势分析 227
9.2.7 显著性检验 228
9.2.8 结构分析 231
9.2.9 因素分析 231
9.2.1 0交叉分析 232
9.3 高级数据分析方法 232
9.3.1 动态分析法 232
9.3.2 相关分析 233
9.3.3 回归分析 236
9.3.4 判别分析 240
9.3.5 对应分析 243
9.3.6 主成分分析 244
9.3.7 多维尺度分析 245
9.3.8 方差分析 250
本章小结 252
第10章 分析结果的解释 253
10.1 分析结果的可视化解释 253
10.1.1 解释的目的与主要内容 254
10.1.2 检查和验证假设 254
10.1.3 追踪分析过程 254
10.2 基本展现方式 255
10.2.1 基于时间变化的可视化展现 256
10.2.2 由大及小的可视化展现 256
10.2.3 由小及大的可视化展现 256
10.2.4 突出对比的可视化展现 256
10.2.5 地域空间可视化展现 258
10.2.6 概念可视化展现 260
10.2.7 气泡图可视化展现 261
10.2.8 注重交叉点的数据可视化展现 262
10.2.9 剖析原因的数据可视化展现 262
10.2.10 异常值数据可视化展现 262
10.3 大数据中的常用可视化展现 262
10.3.1 文本可视化 263
10.3.2 网络(图)可视化 265
10.3.3 时空数据可视化 268
10.3.4 多维数据可视化 269
10.3.5 基于ECharts.js可视化工具 271
10.4 大数据可视分析 273
10.4.1 可视分析的理论基础 274
10.4.2 大数据可视分析技术 279
本章小结 282
第11章 大数据机器学习 283
11.1 机器学习概述 283
11.1.1 机器学习的产生与发展 283
11.1.2 机器学习类型 286
11.1.3 知识表示形式 289
11.1.4 机器学习的典型算法 291
11.2 大数据机器学习的特点与算法 293
11.2.1 大数据机器学习的特点 294
11.2.2 大数据机器学习的评测指标 295
11.2.3 大数据机器学习算法 296
11.3 大数据机器学习的应用 298
11.3.1 大数据的空气质量推断 298
11.3.2 人与建筑的关系分析 299
11.3.3 针对全球问题的预测模型 299
11.3.4 地表可视化与数据分析 299
本章小结 300
第12章 大数据离线计算技术 301
12.1 数据离线计算概述 301
12.1.1 大数据离线处理特点 301
12.1.2 批量计算 302
12.2 MapReduce的体系结构 302
12.2.1 MapReduce计算描述 302
12.2.2 MapReduce适用的场景 304
12.3 Hadoop分布式计算平台 304
12.3.1 Hadoop结构与特点 305
12.3.2 分布式系统与Hadoop 309
12.3.3 SQL数据库系统与H adoop 309
12.3.4 基于Hadoop框架的分布计算 311
12.4 MapReduce程序设计实例分析 316
12.4.1 单词计数 316
12.4.2 MapReduce的应用 319
本章小结 321
第13章 大数据流式计算技术 322
13.1 流式数据的概述 323
13.1.1 流式数据的概念 323
13.1.2 流式数据源 324
13.1.3 流式数据的特征 325
13.2 大数据的计算模式 326
13.2.1 大数据流式计算模型 327
13.2.2 流式计算与批量计算的比较 327
13.2.3 流式计算与实时计算的比较 329
13.3 流式计算技术的应用 329
13.3.1 中间计算 329
13.3.2 流式查询 329
13.3.3 流式抽样 330
13.3.4 统计独立元素数 331
13.3.5 去重计数 332
13.4 流式计算的系统架构 335
13.4.1 对称式系统架构 335
13.4.2 主从式系统架构 336
13.4.3 数据传输方式 337
13.4.4 编程接口 338
13.5 高可用技术 338
13.5.1 被动等待策略 338
13.5.2 主动等待策略 339
13.5.3 上游备份策略 339
13.6 Storm流处理过程 340
13.6.1 Storm特点与架构 340
13.6.2 topology 343
13.6.3 单词计数topology 346
13.7 大数据流式计算的应用 347
本章小结 349
参考文献 350