《数据质量管理基础》PDF下载

  • 购买积分:10 如何计算积分?
  • 作  者:(英)樊文飞,(英)弗洛里斯·吉尔茨著;刘瑞虹,贾西贝译
  • 出 版 社:北京:国防工业出版社
  • 出版年份:2016
  • ISBN:9787118101386
  • 页数:229 页
图书介绍:本书首先描述了一般数据质量问题的基本场景,包括数据一致性,数据重复,数据准确性,数据时效性和信息完整性,然后提出了一个统一的,基于数据质量规则处理这些问题的逻辑框架。涵盖了数据质量主要方面的重要理论结果和实用算法。

第1章 数据质量概述 1

1.1 数据质量管理 1

1.2 数据质量的核心问题 3

1.2.1 数据一致性 3

1.2.2 数据(去重) 4

1.2.3 数据精确性 5

1.2.4 信息完整性 6

1.2.5 数据时效性 7

1.2.6 数据质量问题之间的相互作用 7

1.3 基于规则的数据质量改进 9

1.4 背景介绍 11

参考文献注解 12

第2章 条件依赖 14

2.1 概述 14

2.1.1 条件函数依赖 15

2.1.2 条件包含依赖 19

2.2 条件依赖的静态分析 23

2.2.1 可满足性 23

2.2.2 蕴含性 27

2.2.3 有限公理化 31

2.2.4 依赖传递性 35

参考文献注解 40

第3章 基于条件依赖的数据清洗 44

3.1 发现条件依赖 44

3.1.1 CFD的发现问题 44

3.1.2 常量CFD的发现方法 46

3.1.3 发现通用CFD 49

3.2 错误检测 53

3.2.1 单个CFD的SQL验证法 54

3.2.2 验证多个CFD规则 55

3.3 数据修复 59

3.3.1 数据修复问题 60

3.3.2 修复违反CFD和CIND规则的数据 63

参考文献注解 74

第4章 数据去重 79

4.1 概述 79

4.2 匹配依赖 83

4.3 匹配依赖的推理 89

4.4 记录匹配的相对键 91

4.5 用于数据修复的匹配依赖 98

参考文献注解 102

第5章 信息完整性 105

5.1 相对信息完整性 105

5.1.1 部分封闭数据库 106

5.1.2 相对信息完整性模型 108

5.1.3 相对完整性和数据一致性 111

5.2 判定相对完整性 113

5.3 可能世界的表示系统 120

5.4 捕获丢失的元组和数值 123

5.5 基础问题的复杂度 125

参考文献注解 131

第6章 数据时效性 135

6.1 数据时效性概述 135

6.2 数据时效性模型 138

6.3 数据时效性推理 142

6.4 融合复制函数 147

6.4.1 数据时效性模型的修订 148

6.4.2 时效性保持的复制函数 150

6.5 时效性保持的判定 152

参考文献注释 156

第7章 数据质量问题之间的相互作用 158

7.1 发现确定性修复 158

7.1.1 确定性修复概述 159

7.1.2 编辑规则 161

7.1.3 确定性修复和区域 164

7.1.4 发现确定性修复的框架 167

7.1.5 确定性修复的基础问题 169

7.2 统一数据修复和记录匹配 172

7.2.1 CFD和MD相互作用简介 173

7.2.2 数据清洗问题和清洗规则 175

7.2.3 数据清洗框架 178

7.2.4 用CFD和MD进行数据清洗的静态分析 183

7.3 消解冲突 186

7.3.1 冲突消解概述 187

7.3.2 冲突消解的模型 189

7.3.3 冲突消解的框架 192

7.3.4 冲突消解的基础问题 194

7.4 综述 196

参考文献注解 198

附录符号表 202

参考文献 205