概述 1
第一部分 概念和定义 13
第1章 数据 13
1.1 目的 13
1.2 数据 13
1.3 数据表示 14
1.4 数据事实 20
1.5 数据作为产品 20
1.6 数据作为分析的输入 21
1.7 数据和期望 21
1.8 信息 22
1.9 总结思考 23
第2章 数据、人员和系统 25
2.1 目的 25
2.2 企业或组织 25
2.3 IT与业务 26
2.4 数据生产者 27
2.5 数据消费者 27
2.6 数据代理 27
2.7 数据管家和数据管家工作 28
2.8 数据所有者 28
2.9 数据所有权和数据治理 29
2.10 IT,业务和数据所有者,终极版 29
2.11 数据质量项目组 30
2.12 利益相关者 31
2.13 系统和系统设计 31
2.14 总结思考 32
第3章 数据管理、模型和元数据 33
3.1 目的 33
3.2 数据管理 33
3.3 数据库、数据仓库、数据资产和数据集 34
3.4 源系统、目标系统和记录系统 35
3.5 数据模型 35
3.6 数据模型的类型 36
3.7 数据的物理特征 37
3.8 元数据 38
3.9 元数据是显性知识 40
3.10 数据链和信息生命周期 41
3.11 数据谱系和数据出处 41
3.12 总结思考 42
第4章 数据质量和测量 43
4.1 目的 43
4.2 数据质量 43
4.3 数据质量维度 44
4.4 测量 45
4.5 测量数据 46
4.6 数据质量测量和业务/IT鸿沟 47
4.7 有效测量的特点 48
4.8 数据质量评估 49
4.9 数据质量维度,DQAF测量类型,特定的数据质量指标 50
4.10 数据剖析 51
4.11 数据质量问题和数据管理问题 52
4.12 合理性检查 52
4.13 数据质量阈值 52
4.14 过程控制 54
4.15 联机数据质量的测量和监控 54
4.16 总结思考 55
第二部分 DQAF的概念和测量类型 58
第5章 数据质量评估框架概念 58
5.1 目的 58
5.2 DQAF解决的问题 58
5.3 数据质量期望和数据管理 59
5.4 DQAF的范围 60
5.5 DQAF质量维度 62
5.6 定义DQAF测量类型 64
5.7 元数据的要求 64
5.8 测量和评估分类的对象 65
5.9 测量的功能:收集、计算、比较 67
5.10 总结思考 68
第6章 DQAF测量类型 69
6.1 目的 69
6.2 数据模型的一致性 69
6.3 保证正确接收用于处理的数据 69
6.4 检查接收到的数据的状况 70
6.5 评估数据处理的结果 71
6.6 评估数据内容的有效性 72
6.7 评估数据内容的一致性 73
6.8 对放置联机测量的注释 75
6.9 跨表内容完整性定期测量 76
6.10 评估整体数据库内容 77
6.11 评估控制和测量 78
6.12 测量类型:综合清单 78
6.13 总结思考 82
第三部分 数据评估方案 86
第7章 初步数据评估 86
7.1 目的 86
7.2 初步评估 87
7.3 初步评估的输入 87
7.4 数据预期 87
7.5 数据剖析 87
7.6 列属性剖析 89
7.7 结构剖析 92
7.8 剖析现有数据资产 96
7.9 从剖析到评估 96
7.10 初步评估的可交付成果 96
7.11 总结思考 97
第8章 数据质量改进项目评估 98
8.1 目的 98
8.2 数据质量改进工作 98
8.3 改进项目中的测量 98
第9章 持续测量 101
9.1 目的 101
9.2 适于持续测量的情况 101
9.3 示例:医疗保健数据 103
9.4 持续测量的输入 104
9.5 重要性和风险 106
9.6 自动化 106
9.7 控制 106
9.8 定期测量 107
9.9 持续测量的交付成果 108
9.10 联机与定期测量的对比 108
9.11 总结思考 110
第四部分将DQAF运用到数据需求中 114
第10章 需求、风险和重要性 114
10.1 目的 114
10.2 业务需求 114
10.3 数据质量需求和期望的数据特征 116
10.4 数据质量需求和数据风险 118
10.5 影响数据重要性的因素 119
10.6 指定数据质量指标 120
10.7 总结思考 127
第11章 提问 128
11.1 目的 128
11.2 提问 128
11.3 了解项目 129
11.4 了解源系统 130
11.5 数据消费者的需求 132
11.6 数据的状况 133
11.7 数据模型、转换规则和系统设计 134
11.8 测量规范过程 134
11.9 总结思考 137
第五部分 数据质量战略 140
第12章 数据质量战略 140
12.1 目的 140
12.2 战略的概念 140
12.3 系统战略、数据战略和数据质量战略 141
12.4 数据质量战略和数据治理 142
12.5 信息生命周期中的决策点 143
12.6 数据质量战略一般注意事项 144
12.7 总结思考 145
第13章 数据质量战略的指令 146
13.1 目的 146
13.2 指令1:获得管理层对数据质量的承诺 148
13.3 指令2:把数据作为资产 149
13.4 指令3:应用资源来注重质量 150
13.5 指令4:建立数据的显性知识 151
13.6 指令5:把数据作为可测量和改进的流程的一个产品 152
13.7 指令6:认识到质量是由数据使用者定义的 153
13.8 指令7:解决造成数据问题的根本原因 154
13.9 指令8:测量数据质量,监控关键数据 156
13.10 指令9:保持数据生产者对自己的数据质量(和有关该数据的知识)负责 158
13.11 指令10:为数据使用者提供所需的数据使用知识 158
13.12 指令11:数据需要和用途将演进——为演进作规划 159
13.13 指令12:数据质量超越了数据本身——构建注重质量的文化 160
13.14 总结思考:使用现状评估 161
第六部分 DQAF详解 165
第14章 测量功能:收集、计算、比较 165
14.1 目的 165
14.2 测量功能:收集、计算、比较 165
14.3 收集原始测量数据 166
14.4 计算测量数据 167
14.5 将测量结果与过去的历史结果比较 168
14.6 统计 168
14.7 控制图:统计过程控制的主要手段 172
14.8 DQAF和统计过程控制 172
14.9 总结思考 173
第15章 DQAF测量逻辑模型的功能 174
15.1 目的 174
15.2 指标定义表和测量结果表 174
15.3 可选字段 176
15.4 分母字段 177
15.5 自动阈值 179
15.6 手动阈值 180
15.7 紧急阈值 180
15.8 手动或紧急阈值和结果表 181
15.9 其他系统需求 181
15.10 支持需求 181
15.11 总结思考 181
第16章 DQAF测量类型的各方面 182
16.1 目的 182
16.2 DQAF的各方面 183
16.3 本章的组织结构 183
16.4 测量类型#1:数据集的完备性——元数据和参照数据的充分性 185
16.5 测量类型#2:一个字段内的格式一致性 187
16.6 测量类型#3:跨表的格式一致性 188
16.7 测量类型#4:一个字段内默认值使用的一致性 189
16.8 测量类型#5:跨表的默认值使用的一致性 189
16.9 测量类型#6:用于处理的数据的交付及时性 190
16.10 测量类型#7:数据集的完备性——对于处理的可用性 192
16.11 测量类型#8:数据集的完备性——记录数与控制记录相比 193
16.12 测量类型#9:数据集的完整性——汇总数额字段数据 194
16.13 测量类型#10:数据集的完备性——将大小与过去的大小作比较 195
16.14 测量类型#11:记录的完备性——长度 196
16.15 测量类型#12:字段的完备性——不可为空的字段 197
16.16 测量类型#13:数据集的完整性——重复数据删除 198
16.17 测量类型#14:数据集的完整性——重复记录的合理性检查 199
16.18 测量类型#15:字段内容的完备性——来自数据源的默认值 200
16.19 测量类型#16:基于日期标准的数据集的完备性 202
16.20 测量类型#17:基于日期标准的数据集的合理性 203
16.21 测量类型#18:字段内容的完备性——接收到的数据丢失要处理的关键字段 204
16.22 测量类型#19:数据集的完备性——经过一个流程的记录数的平衡 205
16.23 测量类型#20:数据集的完备性——拒绝记录的理由 206
16.24 测量类型#21:经过一个流程的数据集的完备性——输入与输出的比率 207
16.25 测量类型#22:经过一个流程的数据集的完备性——数额字段的平衡 208
16.26 测量类型#23:字段内容的完备性——汇总的数额字段的比率 209
16.27 测量类型#24:字段内容的完备性——推导的默认值 211
16.28 测量类型#25:数据处理用时 212
16.29 测量类型#26:供访问的数据的及时可用性 214
16.30 测量类型#27:有效性检查,单字段,详细结果 215
16.31 测量类型#28:有效性检查,卷积汇总 218
16.32 测量类型#29:有效性检查,表内多列,详细结果 219
16.33 测量类型#30:一致性列剖析 221
16.34 测量类型#31:数据集内容的一致性,所表示的实体的不重复计数和记录数比率 223
16.35 测量类型#32:数据集内容的一致性,两个所表示的实体的不重复计数的比率 225
16.36 测量类型#33:一致性多列剖析 226
16.37 测量类型#34:表内时序与业务规则的一致性 229
16.38 测量类型#35:用时(小时、天、月等)一致性 229
16.39 测量类型#36:数额字段跨二级字段计算结果的一致性 231
16.40 测量类型#37:按聚合日期汇总的记录数的一致性 233
16.41 测量类型#38:按聚合日期汇总的数额字段数据的一致性 235
16.42 测量类型#39:父/子参照完整性 236
16.43 测量类型#40:子/父参照完整性 237
16.44 测量类型#41:有效性检查,跨表,详细结果 238
16.45 测量类型#42:跨表多列剖析一致性 239
16.46 测量类型#43:跨表的时序与业务规则的一致性 240
16.47 测量类型#44:跨表数额列计算结果的一致性 241
16.48 测量类型#45:按聚合日期汇总的跨表数额列的一致性 241
16.49 测量类型#46:与外部基准比较的一致性 242
16.50 测量类型#47:数据集的完备性——针对特定目的的总体充分性 243
16.51 测量类型#48:数据集的完备性——测量和控制的总体充分性 244
16.52 总结思考:了解你的数据 245
术语表 246
参考文献 255