大数据与数据仓库 集成、架构与管理PDF电子书下载
- 电子书积分:11 积分如何计算积分?
- 作 者:(美)克里什·克里希南著
- 出 版 社:北京:机械工业出版社
- 出版年份:2018
- ISBN:9787111594826
- 页数:270 页
第一部分 大数据 2
第1章 大数据简介 2
1.1引言 2
1.2大数据 2
1.3大数据的定义 4
1.4为什么需要大数据?为什么是现在 4
1.5大数据示例 5
1.5.1社交媒体的文章 5
1.5.2调查数据分析 6
1.5.3调查数据 7
1.5.4气象数据 8
1.5.5 Twitter数据 8
1.5.6集成和分析 8
1.5.7附加数据的类型 10
1.6总结 11
延伸阅读 11
第2章 使用大数据 12
2.1引言 12
2.2数据爆炸 12
2.3数据体量 13
2.3.1机器数据 14
2.3.2应用日志 14
2.3.3点击流日志 14
2.3.4外部或第三方数据 15
2.3.5电子邮件 15
2.3.6合同 15
2.3.7地理信息系统和地理空间数据 16
2.3.8示例:Funshots公司 17
2.4数据速度 19
2.4.1 Amazon、Facebook、Yahoo和Google 19
2.4.2传感器数据 19
2.4.3移动网络 20
2.4.4社交媒体 20
2.5数据多样性 21
2.6总结 22
第3章 大数据处理架构 23
3.1引言 23
3.2再论数据处理 23
3.3数据处理技术 24
3.4数据处理基础设施的挑战 25
3.4.1存储 25
3.4.2传输 25
3.4.3处理 26
3.4.4速度或吞吐量 26
3.5全共享架构与无共享架构的比较 26
3.5.1全共享架构 27
3.5.2无共享架构 27
3.5.3 OLTP与数据仓库 28
3.6大数据处理 28
3.6.1基础设施方面 31
3.6.2数据处理方面 32
3.7电信大数据研究 32
3.7.1基础设施 34
3.7.2数据处理 34
第4章 大数据技术简介 35
4.1引言 35
4.2分布式数据处理 36
4.3大数据处理需求 38
4.4大数据处理技术 39
4.5 Hadoop 42
4.5.1 Hadoop核心组件 43
4.5.2 Hadoop总结 69
4.6 NoSQL 69
4.6.1 CAP定理 69
4.6.2键-值对:Voldemort 70
4.6.3列簇存储:Cassandra 70
4.6.4文档数据库:Riak 76
4.6.5图数据库 77
4.6.6 NoSQL小结 78
4.7文本ETL处理 78
延伸阅读 79
第5章 大数据驱动的商业价值 80
5.1引言 80
5.2案例研究1:传感器数据 81
5.2.1摘要 81
5.2.2 Vestas 81
5.2.3概述 81
5.2.4利用风力发电 81
5.2.5把气候变成资本 82
5.2.6跟踪大数据的挑战 83
5.2.7维持数据中心的能源效率 83
5.3案例研究2:流数据 84
5.3.1摘要 84
5.3.2监控和安全:TerraE chos 84
5.3.3需求 84
5.3.4解决方案 84
5.3.5效益 84
5.3.6先进的光纤网结合实时流数据 85
5.3.7解决方案组件 85
5.3.8扩展安全边界创建战略优势 85
5.3.9关联传感器数据使得假阳性率为零 86
5.4案例研究3:通过大数据分析改善患者预后 86
5.4.1摘要 86
5.4.2业务目标 87
5.4.3挑战 87
5.4.4概述:给从业人员新的洞察以指导患者护理 87
5.4.5挑战:将传统数据仓库生态系统与大数据融合 87
5.4.6解决方案:为大数据分析做好准备 88
5.4.7结果:消除“数据陷阱” 88
5.4.8为什么是aster 88
5.4.9关于Aurora 89
5.5案例研究4:安大略大学技术学院——利用关键数据,提供积极的患者护理 89
5.5.1摘要 89
5.5.2概述 89
5.5.3商业上的收益 90
5.5.4更好地利用数据资源 90
5.5.5智慧医疗保健 91
5.5.6解决方案组件 91
5.5.7融合人类知识与技术 92
5.5.8扩大Artemis的影响 92
5.6案例研究5:微软SQL Server客户解决方案 93
5.6.1客户画像 93
5.6.2解决方案的亮点 93
5.6.3业务需求 93
5.6.4解决方案 94
5.6.5好处 94
5.7案例研究6:以客户为中心的数据集成 95
5.7.1概述 95
5.7.2解决方案设计 98
5.7.3促成更好的交叉销售和追加销售的机会 99
5.8总结 100
第二部分 数据仓库 102
第6章 再论数据仓库 102
6.1引言 102
6.2传统的数据仓库或DW 1.0 103
6.2.1数据架构 103
6.2.2基础设施 104
6.2.3数据仓库的陷阱 106
6.2.4建立数据仓库的架构方法 111
6.3 DW 2.0 113
6.3.1 Inmon的DW 2.0概述 114
6.3.2 DSS 2.0概述 115
6.4总结 116
延伸阅读 116
第7章 数据仓库的再造 118
7.1引言 118
7.2企业数据仓库平台 118
7.2.1事务型系统 119
7.2.2运营数据存储区 119
7.2.3分段区 120
7.2.4数据仓库 120
7.2.5数据集市 120
7.2.6分析型数据库 121
7.2.7数据仓库的问题 121
7.3再造数据仓库的选择 122
7.3.1平台再造 122
7.3.2平台工程 123
7.3.3数据工程 124
7.4使数据仓库现代化 125
7.5使数据仓库现代化的案例研究 127
7.5.1当前状态分析 127
7.5.2推荐 127
7.5.3现代化的业务收益 128
7.5.4一体机的选择过程 128
7.6总结 132
第8章 数据仓库中的工作负载管理 133
8.1引言 133
8.2当前状态 133
8.3工作负载的定义 134
8.4了解工作负载 135
8.4.1数据仓库输出 136
8.4.2数据仓库输入 137
8.5查询分类 138
8.5.1宽/宽 138
8.5.2宽/窄 139
8.5.3窄/宽 139
8.5.4窄/窄 139
8.5.5非结构化/半结构化数据 140
8.6 ETL和CDC的工作负载 140
8.7度量 141
8.8当前系统设计的局限 142
8.9新工作负载和大数据 143
8.10技术选择 144
8.11总结 144
第9章 应用到数据仓库的新技术 145
9.1引言 145
9.2重新检查数据仓库挑战 145
9.2.1数据加载 145
9.2.2可用性 146
9.2.3数据体量 146
9.2.4存储性能 147
9.2.5查询性能 147
9.2.6数据传输 147
9.3数据仓库一体机 147
9.3.1一体机架构 148
9.3.2一体机中的数据分布 149
9.3.3部署数据仓库一体机最佳实践 150
9.3.4大数据一体机 152
9.4云计算 152
9.4.1基础设施即服务 152
9.4.2平台即服务 152
9.4.3软件即服务 153
9.4.4云基础架构 153
9.4.5云计算给数据仓库带来的好处 154
9.4.6将云计算用于数据仓库所面临的问题 154
9.5数据虚拟化 154
9.5.1数据虚拟化是什么 155
9.5.2提高商务智能性能 156
9.5.3工作负载分布 156
9.5.4实施数据虚拟化项目 156
9.5.5使用数据虚拟化时应避免的误区 157
9.5.6内存技术 157
9.5.7内存架构的好处 157
9.6总结 158
延伸阅读 158
第三部分 构建大数据-数据仓库 160
第10章 大数据和数据仓库的集成 160
10.1引言 160
10.2新数据仓库的组件 160
10.2.1数据层 161
10.2.2算法 162
10.2.3技术层 163
10.3集成策略 164
10.3.1数据驱动的集成 164
10.3.2物理组件集成和架构 167
10.3.3外部数据集成 168
10.4 Hadoop与RDBMS 169
10.5大数据一体机 171
10.6数据虚拟化 172
10.7语义框架 173
10.7.1词法处理 174
10.7.2聚类 174
10.7.3语义知识处理 174
10.7.4信息抽取 175
10.7.5可视化 175
10.8总结 175
第11章 大数据的数据驱动架构 176
11.1引言 176
11.2元数据 177
11.2.1技术元数据 177
11.2.2业务元数据 178
11.2.3上下文元数据 178
11.2.4过程设计级元数据 178
11.2.5程序级元数据 178
11.2.6基础设施元数据 179
11.2.7核心业务元数据 179
11.2.8运营元数据 179
11.2.9商务智能型元数据 180
11.3主数据管理 180
11.4处理数据仓库中的数据 181
11.5处理大数据的复杂性 184
11.5.1处理能力的限制 184
11.5.2处理大数据 184
11.6机器学习 190
11.7总结 193
第12章 大数据的信息管理和生命周期 195
12.1引言 195
12.2信息生命周期管理 195
12.2.1目标 196
12.2.2信息管理策略 196
12.2.3治理 196
12.2.4信息生命周期管理的优点 200
12.3大数据的信息生命周期管理 200
12.3.1示例:信息生命周期管理和社交媒体数据 200
12.3.2测量信息生命周期管理的影响 202
12.4总结 203
第13章 大数据分析、可视化和数据科学家 204
13.1引言 204
13.2大数据分析 204
13.3数据发现 206
13.4可视化 206
13.5数据科学家的角色变迁 207
13.6总结 208
第14章 实施大数据-数据仓库的现实情况 209
14.1引言:构建大数据-数据仓库 209
14.2以客户为中心的业务转型 209
14.3 Hadoop和MySQL驱动创新 212
14.4将大数据集成到数据仓库中 214
14.4.1增强决策制订 215
14.4.2成果 216
14.5总结 216
附录A 客户案例研究 217
附录B 建设医疗保健信息工厂 237
结束语 269
- 《女丹仙道:道教女子内丹养生修炼秘籍 下》董沛文著 2012
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《管理信息系统习题集》郭晓军 2016
- 《MBA大师.2020年MBAMPAMPAcc管理类联考专用辅导教材 数学考点精讲》(中国)董璞 2019
- 《信息系统安全技术管理策略 信息安全经济学视角》赵柳榕著 2020
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《卓有成效的管理者 中英文双语版》(美)彼得·德鲁克许是祥译;那国毅审校 2019
- 《危险化学品经营单位主要负责人和安全生产管理人员安全培训教材》李隆庭,徐一星主编 2012
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《管理运筹学》韩伯棠主编 2019
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《魔法销售台词》(美)埃尔默·惠勒著 2019
- 《看漫画学钢琴 技巧 3》高宁译;(日)川崎美雪 2019
- 《优势谈判 15周年经典版》(美)罗杰·道森 2018
- 《社会学与人类生活 社会问题解析 第11版》(美)James M. Henslin(詹姆斯·M. 汉斯林) 2019
- 《海明威书信集:1917-1961 下》(美)海明威(Ernest Hemingway)著;潘小松译 2019
- 《迁徙 默温自选诗集 上》(美)W.S.默温著;伽禾译 2020
- 《上帝的孤独者 下 托马斯·沃尔夫短篇小说集》(美)托马斯·沃尔夫著;刘积源译 2017
- 《巴黎永远没个完》(美)海明威著 2017
- 《剑桥国际英语写作教程 段落写作》(美)吉尔·辛格尔顿(Jill Shingleton)编著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《高等教育双机械基础课程系列教材 高等学校教材 机械设计课程设计手册 第5版》吴宗泽,罗圣国,高志,李威 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017
- 《新工业时代 世界级工业家张毓强和他的“新石头记”》秦朔 2019
- 《智能制造高技能人才培养规划丛书 ABB工业机器人虚拟仿真教程》(中国)工控帮教研组 2019
- 《AutoCAD机械设计实例精解 2019中文版》北京兆迪科技有限公司编著 2019