第一部分数据集成导论 2
第1章 数据集成的重要性 2
1.1数据接口的天然复杂性 2
1.2购买供应商应用包的数量日益增加 3
1.3大数据和虚拟化的催化剂 3
第2章 什么是数据集成 5
2.1运动中的数据 5
2.2集成为通用格式——数据转换 5
2.3数据从一个系统迁移到另一个系统 6
2.4在组织内部移动数据 6
2.5从非结构化数据中抽取信息 8
2.6将处理移动到数据端 9
第3章 数据集成的类型和复杂性 10
3.1管理运动中的数据和持久化数据的异同点 10
3.2批处理数据集成 10
3.3实时数据集成 11
3.4大数据集成 11
3.5数据虚拟化 12
第4章 数据集成开发过程 13
4.1数据集成开发生命周期 13
4.2包含业务知识和专家经验 14
第二部分 批处理数据集成 18
第5章 批处理数据集成简介 18
5.1什么是批处理数据集成 18
5.2批处理数据集成生命周期 19
第6章 抽取、转换和加载 20
6.1什么是ETL 20
6.2概要分析 20
6.3抽取 21
6.4暂存 22
6.5访问层次 22
6.6转换 23
6.6.1简单映射 23
6.6.2查找表 24
6.6.3聚合和规范化 24
6.6.4计算 24
6.7加载 24
第7章 数据仓库 26
7.1什么是数据仓库 26
7.2企业数据仓库架构中的层次 26
7.2.1操作型应用层 26
7.2.2外部数据 27
7.2.3数据仓库中的数据暂存区 27
7.2.4数据仓库数据结构 28
7.2.5从数据仓库到数据集市或者商务智能层的暂存 28
7.2.6商务智能层 28
7.3加载到数据仓库中的数据类型 29
7.3.1数据仓库中的主数据 29
7.3.2数据仓库中的余额和快照数据 30
7.3.3数据仓库中的事务型数据 31
7.3.4事件 31
7.3.5调整 31
第8章 数据转换 39
8.1什么是数据转换 39
8.2数据转换生命周期 39
8.3数据转换分析 39
8.4数据加载最佳实践 40
8.5提高源数据质量 40
8.6映射到目标系统 41
8.7配置数据 41
8.8测试和依赖 42
8.9私有数据 42
8.10校对 43
8.11环境 43
第9章 数据归档 47
9.1什么是数据归档 47
9.2归档数据选择 47
9.3已归档数据可以恢复吗 48
9.4归档环境下数据结构的确认 48
9.5灵活的数据结构 49
第10章 批处理数据集成架构和元数据 54
10.1什么是批处理数据集成架构 54
10.2概要分析工具 55
10.3建模工具 55
10.4元数据存储库 55
10.5数据移动 56
10.6转换 56
10.7调度 57
第三部分 实时数据集成 64
第11章 实时数据集成简介 64
11.1为什么需要实时数据集成 64
11.2为什么需要两组技术 64
第12章 数据集成模式 66
12.1交互模式 66
12.2松耦合 66
12.3中心和节点模式 66
12.4同步交互和异步交互 69
12.5请求和应答 70
12.6发布和订阅 70
12.7两阶段提交 70
12.8集成交互类型 71
第13章 核心实时数据集成技术 72
13.1令人困惑的术语 72
13.2企业服务总线 72
13.3面向服务架构 75
13.4可扩展标记语言 77
13.5数据复制和变化数据捕获 81
13.6企业应用集成 82
13.7企业信息集成 82
第14章 数据集成建模 84
14.1规范化建模 84
14.2消息建模 88
第15章 主数据管理 89
15.1主数据管理简介 89
15.2需要主数据管理方案的原因 89
15.3购买的软件包与主数据 90
15.4参考数据 90
15.5主和从 91
15.6外部数据 93
15.7主数据管理功能 93
15.8主数据管理方案的类型——注册表以及数据中心 94
第16章 实时更新数据仓库 95
16.1企业信息工厂 95
16.2操作型数据存储 96
16.3移动到数据仓库的主数据 97
第17章 实时数据集成架构和元数据 99
17.1实时数据集成元数据简介 99
17.2建模 100
17.3概要分析 100
17.4元数据库 101
17.5企业服务总线——数据转换和调度 101
17.5.1技术中介 101
17.5.2业务内容 102
17.6数据移动和中间件 102
17.7外部交互 102
第四部分 大数据集成 106
第18章 大数据集成简介 106
18.1数据集成及非结构化数据 106
18.2大数据、云数据及数据虚拟化 106
第19章 云架构和数据集成 107
19.1为什么云中的数据集成比较重要 107
19.2公共云 107
19.3云安全 108
19.4云延迟 109
19.5云冗余 110
第20章 数据虚拟化 111
20.1恰逢其时的一项技术 111
20.2数据虚拟化的商业用途 112
20.2.1商务智能方案 112
20.2.2集成不同类型的数据 113
20.2.3快速向数据仓库中增加或者原型增加数据 113
20.2.4将物理上不同的数据一起展现 113
20.2.5利用不同的数据和模型触发交易 114
20.3数据虚拟化架构 114
20.3.1源和适配器 114
20.3.2映射、模型和视图 114
20.3.3转换和展现 115
第21章 大数据集成 116
21.1什么是大数据 116
21.2大数据维度——量 116
21.2.1大规模并行处理——将处理过程移动到数据端 116
21.2.2 Hadoop和MapReduce 117
21.2.3与外部数据集成 117
21.2.4虚拟化 118
21.3大数据维度——多样性 118
21.3.1数据类型 118
21.3.2集成不同类型的数据 118
21.4大数据维度——速度 120
21.4.1流式数据 121
21.4.2传感器和GPS数据 121
21.4.3社会化媒体数据 121
21.5传统大数据应用案例 121
21.6更多大数据应用案例 122
21.6.1医疗 122
21.6.2物流 122
21.6.3国家安全 122
21.7利用大数据的力量——实施决策支持 123
21.7.1触发行动 123
21.7.2从内存以及磁盘中检索数据的速度 123
21.7.3从数据分析到模型,从流式数据到决策 124
21.8大数据架构 125
21.8.1操作型系统和数据存储 125
21.8.2中间数据中心 126
21.8.3商务智能工具 126
21.8.4数据虚拟化服务器 127
21.8.5批处理和实时数据集成工具 127
21.8.6分析型沙盒 127
21.8.7风险响应系统/推荐引擎 127
第22章 移动数据管理总结 132
22.1数据集成架构 132
22.1.1为什么需要数据集成架构 132
22.1.2数据集成生命周期和专家经验 132
22.1.3安全和隐私 133
22.2数据集成引擎 134
22.2.1操作连贯性 134
22.2.2 ETL引擎 134
22.2.3企业服务总线 135
22.2.4数据虚拟化服务器 135
22.2.5数据移动 136
22.3数据集成中心 136
22.3.1主数据 137
22.3.2数据仓库和操作型数据存储 137
22.3.3企业内容管理 138
22.3.4数据归档 138
22.4元数据管理 138
22.4.1数据发现 138
22.4.2数据概要分析 139
22.4.3数据建模 139
22.4.4数据流建模 139
22.4.5元数据存储库 139
22.5结束语 140
参考文献 141