当前位置:首页 > 工业技术
大数据与数据仓库  集成、架构与管理
大数据与数据仓库  集成、架构与管理

大数据与数据仓库 集成、架构与管理PDF电子书下载

工业技术

  • 电子书积分:11 积分如何计算积分?
  • 作 者:(美)克里什·克里希南著
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2018
  • ISBN:9787111594826
  • 页数:270 页
图书介绍:数据仓库专家Krish Krishnan以清晰和简明的阐述,带领我们了解在大数据时代如何升级数据仓库并帮助企业做出智能决策。全书分为三部分:第一部分讨论大数据技术及其应用案例;第二部分讲解数据仓库技术,包括数据仓库的架构选择、工作负载和新兴技术;第三部分讨论大数据和数据仓库的集成,包括数据分析、数据可视化、信息生命周期管理、数据科学家的角色变迁等。本书适合从事数据架构、分析、挖掘等工作的技术人员和管理人员阅读,也适合学习相关专业的学生参考。
《大数据与数据仓库 集成、架构与管理》目录

第一部分 大数据 2

第1章 大数据简介 2

1.1引言 2

1.2大数据 2

1.3大数据的定义 4

1.4为什么需要大数据?为什么是现在 4

1.5大数据示例 5

1.5.1社交媒体的文章 5

1.5.2调查数据分析 6

1.5.3调查数据 7

1.5.4气象数据 8

1.5.5 Twitter数据 8

1.5.6集成和分析 8

1.5.7附加数据的类型 10

1.6总结 11

延伸阅读 11

第2章 使用大数据 12

2.1引言 12

2.2数据爆炸 12

2.3数据体量 13

2.3.1机器数据 14

2.3.2应用日志 14

2.3.3点击流日志 14

2.3.4外部或第三方数据 15

2.3.5电子邮件 15

2.3.6合同 15

2.3.7地理信息系统和地理空间数据 16

2.3.8示例:Funshots公司 17

2.4数据速度 19

2.4.1 Amazon、Facebook、Yahoo和Google 19

2.4.2传感器数据 19

2.4.3移动网络 20

2.4.4社交媒体 20

2.5数据多样性 21

2.6总结 22

第3章 大数据处理架构 23

3.1引言 23

3.2再论数据处理 23

3.3数据处理技术 24

3.4数据处理基础设施的挑战 25

3.4.1存储 25

3.4.2传输 25

3.4.3处理 26

3.4.4速度或吞吐量 26

3.5全共享架构与无共享架构的比较 26

3.5.1全共享架构 27

3.5.2无共享架构 27

3.5.3 OLTP与数据仓库 28

3.6大数据处理 28

3.6.1基础设施方面 31

3.6.2数据处理方面 32

3.7电信大数据研究 32

3.7.1基础设施 34

3.7.2数据处理 34

第4章 大数据技术简介 35

4.1引言 35

4.2分布式数据处理 36

4.3大数据处理需求 38

4.4大数据处理技术 39

4.5 Hadoop 42

4.5.1 Hadoop核心组件 43

4.5.2 Hadoop总结 69

4.6 NoSQL 69

4.6.1 CAP定理 69

4.6.2键-值对:Voldemort 70

4.6.3列簇存储:Cassandra 70

4.6.4文档数据库:Riak 76

4.6.5图数据库 77

4.6.6 NoSQL小结 78

4.7文本ETL处理 78

延伸阅读 79

第5章 大数据驱动的商业价值 80

5.1引言 80

5.2案例研究1:传感器数据 81

5.2.1摘要 81

5.2.2 Vestas 81

5.2.3概述 81

5.2.4利用风力发电 81

5.2.5把气候变成资本 82

5.2.6跟踪大数据的挑战 83

5.2.7维持数据中心的能源效率 83

5.3案例研究2:流数据 84

5.3.1摘要 84

5.3.2监控和安全:TerraE chos 84

5.3.3需求 84

5.3.4解决方案 84

5.3.5效益 84

5.3.6先进的光纤网结合实时流数据 85

5.3.7解决方案组件 85

5.3.8扩展安全边界创建战略优势 85

5.3.9关联传感器数据使得假阳性率为零 86

5.4案例研究3:通过大数据分析改善患者预后 86

5.4.1摘要 86

5.4.2业务目标 87

5.4.3挑战 87

5.4.4概述:给从业人员新的洞察以指导患者护理 87

5.4.5挑战:将传统数据仓库生态系统与大数据融合 87

5.4.6解决方案:为大数据分析做好准备 88

5.4.7结果:消除“数据陷阱” 88

5.4.8为什么是aster 88

5.4.9关于Aurora 89

5.5案例研究4:安大略大学技术学院——利用关键数据,提供积极的患者护理 89

5.5.1摘要 89

5.5.2概述 89

5.5.3商业上的收益 90

5.5.4更好地利用数据资源 90

5.5.5智慧医疗保健 91

5.5.6解决方案组件 91

5.5.7融合人类知识与技术 92

5.5.8扩大Artemis的影响 92

5.6案例研究5:微软SQL Server客户解决方案 93

5.6.1客户画像 93

5.6.2解决方案的亮点 93

5.6.3业务需求 93

5.6.4解决方案 94

5.6.5好处 94

5.7案例研究6:以客户为中心的数据集成 95

5.7.1概述 95

5.7.2解决方案设计 98

5.7.3促成更好的交叉销售和追加销售的机会 99

5.8总结 100

第二部分 数据仓库 102

第6章 再论数据仓库 102

6.1引言 102

6.2传统的数据仓库或DW 1.0 103

6.2.1数据架构 103

6.2.2基础设施 104

6.2.3数据仓库的陷阱 106

6.2.4建立数据仓库的架构方法 111

6.3 DW 2.0 113

6.3.1 Inmon的DW 2.0概述 114

6.3.2 DSS 2.0概述 115

6.4总结 116

延伸阅读 116

第7章 数据仓库的再造 118

7.1引言 118

7.2企业数据仓库平台 118

7.2.1事务型系统 119

7.2.2运营数据存储区 119

7.2.3分段区 120

7.2.4数据仓库 120

7.2.5数据集市 120

7.2.6分析型数据库 121

7.2.7数据仓库的问题 121

7.3再造数据仓库的选择 122

7.3.1平台再造 122

7.3.2平台工程 123

7.3.3数据工程 124

7.4使数据仓库现代化 125

7.5使数据仓库现代化的案例研究 127

7.5.1当前状态分析 127

7.5.2推荐 127

7.5.3现代化的业务收益 128

7.5.4一体机的选择过程 128

7.6总结 132

第8章 数据仓库中的工作负载管理 133

8.1引言 133

8.2当前状态 133

8.3工作负载的定义 134

8.4了解工作负载 135

8.4.1数据仓库输出 136

8.4.2数据仓库输入 137

8.5查询分类 138

8.5.1宽/宽 138

8.5.2宽/窄 139

8.5.3窄/宽 139

8.5.4窄/窄 139

8.5.5非结构化/半结构化数据 140

8.6 ETL和CDC的工作负载 140

8.7度量 141

8.8当前系统设计的局限 142

8.9新工作负载和大数据 143

8.10技术选择 144

8.11总结 144

第9章 应用到数据仓库的新技术 145

9.1引言 145

9.2重新检查数据仓库挑战 145

9.2.1数据加载 145

9.2.2可用性 146

9.2.3数据体量 146

9.2.4存储性能 147

9.2.5查询性能 147

9.2.6数据传输 147

9.3数据仓库一体机 147

9.3.1一体机架构 148

9.3.2一体机中的数据分布 149

9.3.3部署数据仓库一体机最佳实践 150

9.3.4大数据一体机 152

9.4云计算 152

9.4.1基础设施即服务 152

9.4.2平台即服务 152

9.4.3软件即服务 153

9.4.4云基础架构 153

9.4.5云计算给数据仓库带来的好处 154

9.4.6将云计算用于数据仓库所面临的问题 154

9.5数据虚拟化 154

9.5.1数据虚拟化是什么 155

9.5.2提高商务智能性能 156

9.5.3工作负载分布 156

9.5.4实施数据虚拟化项目 156

9.5.5使用数据虚拟化时应避免的误区 157

9.5.6内存技术 157

9.5.7内存架构的好处 157

9.6总结 158

延伸阅读 158

第三部分 构建大数据-数据仓库 160

第10章 大数据和数据仓库的集成 160

10.1引言 160

10.2新数据仓库的组件 160

10.2.1数据层 161

10.2.2算法 162

10.2.3技术层 163

10.3集成策略 164

10.3.1数据驱动的集成 164

10.3.2物理组件集成和架构 167

10.3.3外部数据集成 168

10.4 Hadoop与RDBMS 169

10.5大数据一体机 171

10.6数据虚拟化 172

10.7语义框架 173

10.7.1词法处理 174

10.7.2聚类 174

10.7.3语义知识处理 174

10.7.4信息抽取 175

10.7.5可视化 175

10.8总结 175

第11章 大数据的数据驱动架构 176

11.1引言 176

11.2元数据 177

11.2.1技术元数据 177

11.2.2业务元数据 178

11.2.3上下文元数据 178

11.2.4过程设计级元数据 178

11.2.5程序级元数据 178

11.2.6基础设施元数据 179

11.2.7核心业务元数据 179

11.2.8运营元数据 179

11.2.9商务智能型元数据 180

11.3主数据管理 180

11.4处理数据仓库中的数据 181

11.5处理大数据的复杂性 184

11.5.1处理能力的限制 184

11.5.2处理大数据 184

11.6机器学习 190

11.7总结 193

第12章 大数据的信息管理和生命周期 195

12.1引言 195

12.2信息生命周期管理 195

12.2.1目标 196

12.2.2信息管理策略 196

12.2.3治理 196

12.2.4信息生命周期管理的优点 200

12.3大数据的信息生命周期管理 200

12.3.1示例:信息生命周期管理和社交媒体数据 200

12.3.2测量信息生命周期管理的影响 202

12.4总结 203

第13章 大数据分析、可视化和数据科学家 204

13.1引言 204

13.2大数据分析 204

13.3数据发现 206

13.4可视化 206

13.5数据科学家的角色变迁 207

13.6总结 208

第14章 实施大数据-数据仓库的现实情况 209

14.1引言:构建大数据-数据仓库 209

14.2以客户为中心的业务转型 209

14.3 Hadoop和MySQL驱动创新 212

14.4将大数据集成到数据仓库中 214

14.4.1增强决策制订 215

14.4.2成果 216

14.5总结 216

附录A 客户案例研究 217

附录B 建设医疗保健信息工厂 237

结束语 269

相关图书
作者其它书籍
返回顶部