第1章 绪论 1
1.1 引言 1
1.2 数据工程建设概述 2
1.2.1 数据处理与应用的发展简况 2
1.2.2 信息系统建设中的数据工程 3
1.2.3 我国数据工程建设面临的问题 9
1.3 数据质量概述 10
1.3.1 数据质量的含义 10
1.3.2 数据全生命周期质量管理 12
1.3.3 数据质量问题的来源 13
1.3.4 数据质量研究发展简况 14
1.4 本书内容结构安排 16
参考文献 18
第2章 数据质量研究和数据清洗系统框架 20
2.1 引言 20
2.2 数据质量研究框架 20
2.2.1 典型的数据质量框架 20
2.2.2 数据质量的研究主题 25
2.2.3 数据质量的研究方法 30
2.3 对数据质量管理的思考 33
2.3.1 数据质量管理的发展模式 33
2.3.2 数据质量管理问题剖析 35
2.4 典型数据质量控制的框架 38
2.4.1 层次结构数据质量控制框架 38
2.4.2 层次结构数据质量控制所涉及的关键问题 40
2.4.3 数据清洗技术简介 42
2.4.4 数据清洗的概念辨析 42
2.4.5 数据清洗的一般性系统框架 45
2.5 本章小结 47
参考文献 48
第3章 典型数据清洗技术的发展动态 51
3.1 引言 51
3.2 实体分辨技术的发展动态 51
3.2.1 数据分块算法 52
3.2.2 记录比较算法 54
3.2.3 匹配决策模型 55
3.2.4 基于关系的实体分辨 57
3.2.5 实体分辨中的训练和测试数据集 59
3.2.6 实体分辨面临的挑战 61
3.3 不完整数据清洗技术的发展动态 63
3.3.1 数据完整性及其评价方法 63
3.3.2 不完整数据的分类 64
3.3.3 不完整数据清洗技术 65
3.4 不一致数据清洗技术的发展动态 66
3.4.1 针对一致性的数据依赖理论 67
3.4.2 典型数据依赖(规则)挖掘方法 72
3.4.3 基于数据依赖的数据一致性保证 75
3.5 本章小结 79
参考文献 80
第4章 实体分辨中的数据分块方法 86
4.1 引言 86
4.2 基于冗余的数据分块 86
4.3 基于倒排索引消除冗余记录对 87
4.3.1 数据块排序索引 88
4.3.2 记录倒排索引 89
4.3.3 冗余记录对识别 89
4.3.4 实验分析 90
4.4 基于空间映射的数据块约减 94
4.4.1 数据块映射 95
4.4.2 数据块约减 96
4.4.3 实验分析 98
4.5 基于Canopy聚类的数据分块 101
4.5.1 整体流程 102
4.5.2 ID指定 102
4.5.3 BK生成 103
4.5.4 Canopy聚类 103
4.5.5 候选对象获取 105
4.5.6 复杂性分析 105
4.5.7 实验分析 105
4.6 本章小结 108
参考文献 109
第5章 实体分辨中的相似度计算方法 111
5.1 引言 111
5.2 基于多编辑距离融合的相似度计算 111
5.2.1 相似特征定义及其标准化 112
5.2.2 编辑距离 113
5.2.3 中西文混合字符串的编辑距离 114
5.2.4 多编辑距离字符串相似度融合 116
5.2.5 实验分析 117
5.3 属性相似度与函数依赖的关系 119
5.4 基于函数依赖的属性相似度调整 122
5.4.1 属性相似度划分 122
5.4.2 属性相似度调整 123
5.4.3 算法描述 126
5.4.4 实验分析 127
5.5 本章小结 133
参考文献 134
第6章 基于关系的实体分辨 136
6.1 引言 136
6.2 基于云模型的实体分辨记录对划分 137
6.2.1 云模型简介 137
6.2.2 记录相似度的分布 138
6.2.3 记录相似度的云模型表示 139
6.2.4 划分方法 140
6.2.5 结果分析 142
6.3 基于邻域粗糙集的实体分辨记录对划分 143
6.3.1 邻域粗糙集 144
6.3.2 基于邻域粗糙集的记录对划分 145
6.3.3 实验分析 146
6.4 基于关系类型的自适应实体分辨 150
6.4.1 路径权重 150
6.4.2 路径概率 151
6.4.3 连接强度 152
6.4.4 自适应关系类型权重学习 153
6.4.5 实验分析 154
6.5 本章小结 159
参考文献 159
第7章 不完整数据的分类与检测 161
7.1 引言 161
7.2 基于位运算的不完整数据分类与检测 162
7.2.1 不完整数据及其分类 162
7.2.2 记录的二进制表示 164
7.2.3 不完整记录的位运算分类检测方法 164
7.2.4 应用实例 166
7.3 基于统计关系的不完整数据分类 167
7.3.1 数据缺失模式分类 167
7.3.2 数据缺失机制分类 169
7.4 本章小结 171
参考文献 171
第8章 不完整数据的估计与填充 173
8.1 引言 173
8.2 基于统计关系学习的缺失数据估计与填充 173
8.2.1 统计关系学习概述 174
8.2.2 基于马尔可夫模型的缺失值估计方法 178
8.2.3 基于关系马尔可夫模型的缺失值估计 181
8.3 基于机器学习的缺失数据估计与填充 192
8.3.1 基于k-近邻的填补算法 192
8.3.2 局部敏感哈希技术 193
8.3.3 LSH_KNN数据填补算法 193
8.3.4 实验验证 197
8.4 函数依赖一致性数据生成 200
8.4.1 函数依赖一致性 200
8.4.2 单函数依赖一致性数据生成算法 201
8.4.3 基于有向无环图的多函数依赖一致性数据生成 203
8.4.4 属性集划分和数据生成流水线 206
8.5 本章小结 209
参考文献 209
第9章 条件函数依赖挖掘及其优化方法 211
9.1 引言 211
9.2 条件函数依赖挖掘及其常用算法 211
9.2.1 条件函数依赖及其挖掘问题 212
9.2.2 函数依赖挖掘 215
9.2.3 CTANE算法 217
9.2.4 CFDMiner算法 219
9.3 基于开项集剪枝的常量条件函数依赖挖掘算法 221
9.3.1 剪枝与优化策略 221
9.3.2 优化前后复杂度对比 225
9.3.3 实验验证与结果分析 226
9.4 本章小结 228
参考文献 229
第10章 基于规则的不一致数据检测与修复方法 231
10.1 引言 231
10.2 基于Fellegi-Holt方法的不一致数据检测 232
10.2.1 Fellegi-Holt方法 232
10.2.2 检测流程及策略 236
10.2.3 实验及分析 238
10.3 基于Evidence-Rules模型的不一致数据修复 242
10.3.1 确定问题记录中待修改属性集 243
10.3.2 基于函数依赖规则的属性值修复 244
10.3.3 Evidence-Rules模型与问题数据修复 246
10.3.4 实验及分析 253
10.4 本章小结 256
参考文献 257
第11章 数据质量工具 259
11.1 引言 259
11.2 数据质量工具发展概况 259
11.2.1 Gartner分析报告 259
11.2.2 数据质量管理工具分析 261
11.3 基于表达式树的数据质量工具设计 265
11.3.1 数据质量规则的分类与表达 265
11.3.2 数据质量规则的存储与识别 271
11.4 基于流程的数据质量工具设计 276
11.4.1 数据模型 277
11.4.2 作业模型 278
11.4.3 执行方案模型 280
11.5 本章小结 281
参考文献 282
第12章 大数据与大数据质量问题 283
12.1 引言 283
12.2 大数据时代的特征 283
12.2.1 大数据的含义 284
12.2.2 大数据的特征 284
12.2.3 进入大数据时代的必要条件 285
12.2.4 大数据时代的革命性转变 287
12.2.5 大数据时代的核心任务 288
12.3 大数据质量面临的挑战 290
12.3.1 数据安全问题 290
12.3.2 大数据的偏见和盲区 291
12.3.3 非结构化数据的质量控制 292
12.3.4 结构化数据内缺少结构性 292
12.3.5 分布式数据清洗 293
12.3.6 数据化程度不够 293
12.3.7 数据稀缺 294
12.3.8 数据冗余 294
12.3.9 数据对实际需求的适用性 294
12.3.10 人为选择导致的信息失真 295
12.4 数据治理 295
12.4.1 数据治理的出发点 295
12.4.2 数据治理的一般流程 296
12.4.3 数据治理的系统框架 297
12.5 本章小结 300
参考文献 300
基金资助目录 302