《大数据管理 数据集成的技术、方法与最佳实践》PDF下载

  • 购买积分:8 如何计算积分?
  • 作  者:(美)瑞芙著;余水清,潘黎萍译
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2014
  • ISBN:9787111459057
  • 页数:141 页
图书介绍:本书分四部分,共22章:第一部分(第1~4章)集中论述在组织的数据管理计划中实现数据集成以及对移动中的数据进行高效管理的重要性和必要性,涉及数据集成的定义、重要性、类型及复杂性,还论述了数据集成的开发过程;第二部分(第5~10章)讨论大规模数据迁移时所涉及的数据集成技巧和技术——批处理或异步数据集成,用于数据转换以及将数据迁移到数据仓库,包括批处理数据集成简介,抽取、转换和装载数据,数据仓库、数据转换、数据归档,以及批处理数据集成架构和元数据;第三部分(第11~17章)讨论与实时或者同步数据集成相关的数据集成最佳实践,实时数据集成用于在相互交互的操作型应用和系统之间传输数据,涉及实时数据集成简介、数据集成模式、核心实时数据集成技术、数据集成建模、实时更新数据仓库,以及实时数据集成架构和元数据;第四部分(第18~22章)讨论与书籍集成相关的新兴技术,如:云计算、可视化、大规模并行处理以及数据虚拟化等。

第一部分数据集成导论 2

第1章 数据集成的重要性 2

1.1数据接口的天然复杂性 2

1.2购买供应商应用包的数量日益增加 3

1.3大数据和虚拟化的催化剂 3

第2章 什么是数据集成 5

2.1运动中的数据 5

2.2集成为通用格式——数据转换 5

2.3数据从一个系统迁移到另一个系统 6

2.4在组织内部移动数据 6

2.5从非结构化数据中抽取信息 8

2.6将处理移动到数据端 9

第3章 数据集成的类型和复杂性 10

3.1管理运动中的数据和持久化数据的异同点 10

3.2批处理数据集成 10

3.3实时数据集成 11

3.4大数据集成 11

3.5数据虚拟化 12

第4章 数据集成开发过程 13

4.1数据集成开发生命周期 13

4.2包含业务知识和专家经验 14

第二部分 批处理数据集成 18

第5章 批处理数据集成简介 18

5.1什么是批处理数据集成 18

5.2批处理数据集成生命周期 19

第6章 抽取、转换和加载 20

6.1什么是ETL 20

6.2概要分析 20

6.3抽取 21

6.4暂存 22

6.5访问层次 22

6.6转换 23

6.6.1简单映射 23

6.6.2查找表 24

6.6.3聚合和规范化 24

6.6.4计算 24

6.7加载 24

第7章 数据仓库 26

7.1什么是数据仓库 26

7.2企业数据仓库架构中的层次 26

7.2.1操作型应用层 26

7.2.2外部数据 27

7.2.3数据仓库中的数据暂存区 27

7.2.4数据仓库数据结构 28

7.2.5从数据仓库到数据集市或者商务智能层的暂存 28

7.2.6商务智能层 28

7.3加载到数据仓库中的数据类型 29

7.3.1数据仓库中的主数据 29

7.3.2数据仓库中的余额和快照数据 30

7.3.3数据仓库中的事务型数据 31

7.3.4事件 31

7.3.5调整 31

第8章 数据转换 39

8.1什么是数据转换 39

8.2数据转换生命周期 39

8.3数据转换分析 39

8.4数据加载最佳实践 40

8.5提高源数据质量 40

8.6映射到目标系统 41

8.7配置数据 41

8.8测试和依赖 42

8.9私有数据 42

8.10校对 43

8.11环境 43

第9章 数据归档 47

9.1什么是数据归档 47

9.2归档数据选择 47

9.3已归档数据可以恢复吗 48

9.4归档环境下数据结构的确认 48

9.5灵活的数据结构 49

第10章 批处理数据集成架构和元数据 54

10.1什么是批处理数据集成架构 54

10.2概要分析工具 55

10.3建模工具 55

10.4元数据存储库 55

10.5数据移动 56

10.6转换 56

10.7调度 57

第三部分 实时数据集成 64

第11章 实时数据集成简介 64

11.1为什么需要实时数据集成 64

11.2为什么需要两组技术 64

第12章 数据集成模式 66

12.1交互模式 66

12.2松耦合 66

12.3中心和节点模式 66

12.4同步交互和异步交互 69

12.5请求和应答 70

12.6发布和订阅 70

12.7两阶段提交 70

12.8集成交互类型 71

第13章 核心实时数据集成技术 72

13.1令人困惑的术语 72

13.2企业服务总线 72

13.3面向服务架构 75

13.4可扩展标记语言 77

13.5数据复制和变化数据捕获 81

13.6企业应用集成 82

13.7企业信息集成 82

第14章 数据集成建模 84

14.1规范化建模 84

14.2消息建模 88

第15章 主数据管理 89

15.1主数据管理简介 89

15.2需要主数据管理方案的原因 89

15.3购买的软件包与主数据 90

15.4参考数据 90

15.5主和从 91

15.6外部数据 93

15.7主数据管理功能 93

15.8主数据管理方案的类型——注册表以及数据中心 94

第16章 实时更新数据仓库 95

16.1企业信息工厂 95

16.2操作型数据存储 96

16.3移动到数据仓库的主数据 97

第17章 实时数据集成架构和元数据 99

17.1实时数据集成元数据简介 99

17.2建模 100

17.3概要分析 100

17.4元数据库 101

17.5企业服务总线——数据转换和调度 101

17.5.1技术中介 101

17.5.2业务内容 102

17.6数据移动和中间件 102

17.7外部交互 102

第四部分 大数据集成 106

第18章 大数据集成简介 106

18.1数据集成及非结构化数据 106

18.2大数据、云数据及数据虚拟化 106

第19章 云架构和数据集成 107

19.1为什么云中的数据集成比较重要 107

19.2公共云 107

19.3云安全 108

19.4云延迟 109

19.5云冗余 110

第20章 数据虚拟化 111

20.1恰逢其时的一项技术 111

20.2数据虚拟化的商业用途 112

20.2.1商务智能方案 112

20.2.2集成不同类型的数据 113

20.2.3快速向数据仓库中增加或者原型增加数据 113

20.2.4将物理上不同的数据一起展现 113

20.2.5利用不同的数据和模型触发交易 114

20.3数据虚拟化架构 114

20.3.1源和适配器 114

20.3.2映射、模型和视图 114

20.3.3转换和展现 115

第21章 大数据集成 116

21.1什么是大数据 116

21.2大数据维度——量 116

21.2.1大规模并行处理——将处理过程移动到数据端 116

21.2.2 Hadoop和MapReduce 117

21.2.3与外部数据集成 117

21.2.4虚拟化 118

21.3大数据维度——多样性 118

21.3.1数据类型 118

21.3.2集成不同类型的数据 118

21.4大数据维度——速度 120

21.4.1流式数据 121

21.4.2传感器和GPS数据 121

21.4.3社会化媒体数据 121

21.5传统大数据应用案例 121

21.6更多大数据应用案例 122

21.6.1医疗 122

21.6.2物流 122

21.6.3国家安全 122

21.7利用大数据的力量——实施决策支持 123

21.7.1触发行动 123

21.7.2从内存以及磁盘中检索数据的速度 123

21.7.3从数据分析到模型,从流式数据到决策 124

21.8大数据架构 125

21.8.1操作型系统和数据存储 125

21.8.2中间数据中心 126

21.8.3商务智能工具 126

21.8.4数据虚拟化服务器 127

21.8.5批处理和实时数据集成工具 127

21.8.6分析型沙盒 127

21.8.7风险响应系统/推荐引擎 127

第22章 移动数据管理总结 132

22.1数据集成架构 132

22.1.1为什么需要数据集成架构 132

22.1.2数据集成生命周期和专家经验 132

22.1.3安全和隐私 133

22.2数据集成引擎 134

22.2.1操作连贯性 134

22.2.2 ETL引擎 134

22.2.3企业服务总线 135

22.2.4数据虚拟化服务器 135

22.2.5数据移动 136

22.3数据集成中心 136

22.3.1主数据 137

22.3.2数据仓库和操作型数据存储 137

22.3.3企业内容管理 138

22.3.4数据归档 138

22.4元数据管理 138

22.4.1数据发现 138

22.4.2数据概要分析 139

22.4.3数据建模 139

22.4.4数据流建模 139

22.4.5元数据存储库 139

22.5结束语 140

参考文献 141