《数据质量测量的持续改进》PDF下载

  • 购买积分:11 如何计算积分?
  • 作  者:(美)劳拉·塞巴斯蒂安-科尔曼(Laura Sebastian-Coleman)著
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2016
  • ISBN:7111532392
  • 页数:262 页
图书介绍:本书分为六部分,共16章。第一部分(第1~4章)讨论对数据质量和数据管理意义重大的一组术语,涉及数据的扩展定义、符号性功能、与数据和数据管理相关的角色、与数据管理相关的概念以及数据质量维度的概念。第二部分(第5章和第6章)描述创建DQAF的原因,概括框架的假设、定义和管理思路,并给出48种测量类型的简短描述。第三部分(第7~9章)阐释数据评估方案,涉及数据评估的目标与输入、如何剖析数据、测量与数据质量改进项目的关系以及将持续测量用于维持数据质量的一般原则。第四部分(第10章和第11章)展示DQAF类别如何用于编制数据质量的需求,以便指定数据质量的联机测量、控制和定期测量。第五部分(第12章和第13章)讨论定义数据质量战略的环境和方法,涉及数据质量战略的概念与总体策略,还讨论建立组织的数据质量战略的12个指令。第六部分(第14~16章)详细讨论DQAF的框架,涉及联机测量中如何收集与计算原始测量数据,如何产生测量结果,以及DQAF测量逻辑数据模型的测量类型共有的功能。

概述 1

第一部分 概念和定义 13

第1章 数据 13

1.1 目的 13

1.2 数据 13

1.3 数据表示 14

1.4 数据事实 20

1.5 数据作为产品 20

1.6 数据作为分析的输入 21

1.7 数据和期望 21

1.8 信息 22

1.9 总结思考 23

第2章 数据、人员和系统 25

2.1 目的 25

2.2 企业或组织 25

2.3 IT与业务 26

2.4 数据生产者 27

2.5 数据消费者 27

2.6 数据代理 27

2.7 数据管家和数据管家工作 28

2.8 数据所有者 28

2.9 数据所有权和数据治理 29

2.10 IT,业务和数据所有者,终极版 29

2.11 数据质量项目组 30

2.12 利益相关者 31

2.13 系统和系统设计 31

2.14 总结思考 32

第3章 数据管理、模型和元数据 33

3.1 目的 33

3.2 数据管理 33

3.3 数据库、数据仓库、数据资产和数据集 34

3.4 源系统、目标系统和记录系统 35

3.5 数据模型 35

3.6 数据模型的类型 36

3.7 数据的物理特征 37

3.8 元数据 38

3.9 元数据是显性知识 40

3.10 数据链和信息生命周期 41

3.11 数据谱系和数据出处 41

3.12 总结思考 42

第4章 数据质量和测量 43

4.1 目的 43

4.2 数据质量 43

4.3 数据质量维度 44

4.4 测量 45

4.5 测量数据 46

4.6 数据质量测量和业务/IT鸿沟 47

4.7 有效测量的特点 48

4.8 数据质量评估 49

4.9 数据质量维度,DQAF测量类型,特定的数据质量指标 50

4.10 数据剖析 51

4.11 数据质量问题和数据管理问题 52

4.12 合理性检查 52

4.13 数据质量阈值 52

4.14 过程控制 54

4.15 联机数据质量的测量和监控 54

4.16 总结思考 55

第二部分 DQAF的概念和测量类型 58

第5章 数据质量评估框架概念 58

5.1 目的 58

5.2 DQAF解决的问题 58

5.3 数据质量期望和数据管理 59

5.4 DQAF的范围 60

5.5 DQAF质量维度 62

5.6 定义DQAF测量类型 64

5.7 元数据的要求 64

5.8 测量和评估分类的对象 65

5.9 测量的功能:收集、计算、比较 67

5.10 总结思考 68

第6章 DQAF测量类型 69

6.1 目的 69

6.2 数据模型的一致性 69

6.3 保证正确接收用于处理的数据 69

6.4 检查接收到的数据的状况 70

6.5 评估数据处理的结果 71

6.6 评估数据内容的有效性 72

6.7 评估数据内容的一致性 73

6.8 对放置联机测量的注释 75

6.9 跨表内容完整性定期测量 76

6.10 评估整体数据库内容 77

6.11 评估控制和测量 78

6.12 测量类型:综合清单 78

6.13 总结思考 82

第三部分 数据评估方案 86

第7章 初步数据评估 86

7.1 目的 86

7.2 初步评估 87

7.3 初步评估的输入 87

7.4 数据预期 87

7.5 数据剖析 87

7.6 列属性剖析 89

7.7 结构剖析 92

7.8 剖析现有数据资产 96

7.9 从剖析到评估 96

7.10 初步评估的可交付成果 96

7.11 总结思考 97

第8章 数据质量改进项目评估 98

8.1 目的 98

8.2 数据质量改进工作 98

8.3 改进项目中的测量 98

第9章 持续测量 101

9.1 目的 101

9.2 适于持续测量的情况 101

9.3 示例:医疗保健数据 103

9.4 持续测量的输入 104

9.5 重要性和风险 106

9.6 自动化 106

9.7 控制 106

9.8 定期测量 107

9.9 持续测量的交付成果 108

9.10 联机与定期测量的对比 108

9.11 总结思考 110

第四部分将DQAF运用到数据需求中 114

第10章 需求、风险和重要性 114

10.1 目的 114

10.2 业务需求 114

10.3 数据质量需求和期望的数据特征 116

10.4 数据质量需求和数据风险 118

10.5 影响数据重要性的因素 119

10.6 指定数据质量指标 120

10.7 总结思考 127

第11章 提问 128

11.1 目的 128

11.2 提问 128

11.3 了解项目 129

11.4 了解源系统 130

11.5 数据消费者的需求 132

11.6 数据的状况 133

11.7 数据模型、转换规则和系统设计 134

11.8 测量规范过程 134

11.9 总结思考 137

第五部分 数据质量战略 140

第12章 数据质量战略 140

12.1 目的 140

12.2 战略的概念 140

12.3 系统战略、数据战略和数据质量战略 141

12.4 数据质量战略和数据治理 142

12.5 信息生命周期中的决策点 143

12.6 数据质量战略一般注意事项 144

12.7 总结思考 145

第13章 数据质量战略的指令 146

13.1 目的 146

13.2 指令1:获得管理层对数据质量的承诺 148

13.3 指令2:把数据作为资产 149

13.4 指令3:应用资源来注重质量 150

13.5 指令4:建立数据的显性知识 151

13.6 指令5:把数据作为可测量和改进的流程的一个产品 152

13.7 指令6:认识到质量是由数据使用者定义的 153

13.8 指令7:解决造成数据问题的根本原因 154

13.9 指令8:测量数据质量,监控关键数据 156

13.10 指令9:保持数据生产者对自己的数据质量(和有关该数据的知识)负责 158

13.11 指令10:为数据使用者提供所需的数据使用知识 158

13.12 指令11:数据需要和用途将演进——为演进作规划 159

13.13 指令12:数据质量超越了数据本身——构建注重质量的文化 160

13.14 总结思考:使用现状评估 161

第六部分 DQAF详解 165

第14章 测量功能:收集、计算、比较 165

14.1 目的 165

14.2 测量功能:收集、计算、比较 165

14.3 收集原始测量数据 166

14.4 计算测量数据 167

14.5 将测量结果与过去的历史结果比较 168

14.6 统计 168

14.7 控制图:统计过程控制的主要手段 172

14.8 DQAF和统计过程控制 172

14.9 总结思考 173

第15章 DQAF测量逻辑模型的功能 174

15.1 目的 174

15.2 指标定义表和测量结果表 174

15.3 可选字段 176

15.4 分母字段 177

15.5 自动阈值 179

15.6 手动阈值 180

15.7 紧急阈值 180

15.8 手动或紧急阈值和结果表 181

15.9 其他系统需求 181

15.10 支持需求 181

15.11 总结思考 181

第16章 DQAF测量类型的各方面 182

16.1 目的 182

16.2 DQAF的各方面 183

16.3 本章的组织结构 183

16.4 测量类型#1:数据集的完备性——元数据和参照数据的充分性 185

16.5 测量类型#2:一个字段内的格式一致性 187

16.6 测量类型#3:跨表的格式一致性 188

16.7 测量类型#4:一个字段内默认值使用的一致性 189

16.8 测量类型#5:跨表的默认值使用的一致性 189

16.9 测量类型#6:用于处理的数据的交付及时性 190

16.10 测量类型#7:数据集的完备性——对于处理的可用性 192

16.11 测量类型#8:数据集的完备性——记录数与控制记录相比 193

16.12 测量类型#9:数据集的完整性——汇总数额字段数据 194

16.13 测量类型#10:数据集的完备性——将大小与过去的大小作比较 195

16.14 测量类型#11:记录的完备性——长度 196

16.15 测量类型#12:字段的完备性——不可为空的字段 197

16.16 测量类型#13:数据集的完整性——重复数据删除 198

16.17 测量类型#14:数据集的完整性——重复记录的合理性检查 199

16.18 测量类型#15:字段内容的完备性——来自数据源的默认值 200

16.19 测量类型#16:基于日期标准的数据集的完备性 202

16.20 测量类型#17:基于日期标准的数据集的合理性 203

16.21 测量类型#18:字段内容的完备性——接收到的数据丢失要处理的关键字段 204

16.22 测量类型#19:数据集的完备性——经过一个流程的记录数的平衡 205

16.23 测量类型#20:数据集的完备性——拒绝记录的理由 206

16.24 测量类型#21:经过一个流程的数据集的完备性——输入与输出的比率 207

16.25 测量类型#22:经过一个流程的数据集的完备性——数额字段的平衡 208

16.26 测量类型#23:字段内容的完备性——汇总的数额字段的比率 209

16.27 测量类型#24:字段内容的完备性——推导的默认值 211

16.28 测量类型#25:数据处理用时 212

16.29 测量类型#26:供访问的数据的及时可用性 214

16.30 测量类型#27:有效性检查,单字段,详细结果 215

16.31 测量类型#28:有效性检查,卷积汇总 218

16.32 测量类型#29:有效性检查,表内多列,详细结果 219

16.33 测量类型#30:一致性列剖析 221

16.34 测量类型#31:数据集内容的一致性,所表示的实体的不重复计数和记录数比率 223

16.35 测量类型#32:数据集内容的一致性,两个所表示的实体的不重复计数的比率 225

16.36 测量类型#33:一致性多列剖析 226

16.37 测量类型#34:表内时序与业务规则的一致性 229

16.38 测量类型#35:用时(小时、天、月等)一致性 229

16.39 测量类型#36:数额字段跨二级字段计算结果的一致性 231

16.40 测量类型#37:按聚合日期汇总的记录数的一致性 233

16.41 测量类型#38:按聚合日期汇总的数额字段数据的一致性 235

16.42 测量类型#39:父/子参照完整性 236

16.43 测量类型#40:子/父参照完整性 237

16.44 测量类型#41:有效性检查,跨表,详细结果 238

16.45 测量类型#42:跨表多列剖析一致性 239

16.46 测量类型#43:跨表的时序与业务规则的一致性 240

16.47 测量类型#44:跨表数额列计算结果的一致性 241

16.48 测量类型#45:按聚合日期汇总的跨表数额列的一致性 241

16.49 测量类型#46:与外部基准比较的一致性 242

16.50 测量类型#47:数据集的完备性——针对特定目的的总体充分性 243

16.51 测量类型#48:数据集的完备性——测量和控制的总体充分性 244

16.52 总结思考:了解你的数据 245

术语表 246

参考文献 255