第一部分 大数据 2
第1章 大数据简介 2
1.1引言 2
1.2大数据 2
1.3大数据的定义 4
1.4为什么需要大数据?为什么是现在 4
1.5大数据示例 5
1.5.1社交媒体的文章 5
1.5.2调查数据分析 6
1.5.3调查数据 7
1.5.4气象数据 8
1.5.5 Twitter数据 8
1.5.6集成和分析 8
1.5.7附加数据的类型 10
1.6总结 11
延伸阅读 11
第2章 使用大数据 12
2.1引言 12
2.2数据爆炸 12
2.3数据体量 13
2.3.1机器数据 14
2.3.2应用日志 14
2.3.3点击流日志 14
2.3.4外部或第三方数据 15
2.3.5电子邮件 15
2.3.6合同 15
2.3.7地理信息系统和地理空间数据 16
2.3.8示例:Funshots公司 17
2.4数据速度 19
2.4.1 Amazon、Facebook、Yahoo和Google 19
2.4.2传感器数据 19
2.4.3移动网络 20
2.4.4社交媒体 20
2.5数据多样性 21
2.6总结 22
第3章 大数据处理架构 23
3.1引言 23
3.2再论数据处理 23
3.3数据处理技术 24
3.4数据处理基础设施的挑战 25
3.4.1存储 25
3.4.2传输 25
3.4.3处理 26
3.4.4速度或吞吐量 26
3.5全共享架构与无共享架构的比较 26
3.5.1全共享架构 27
3.5.2无共享架构 27
3.5.3 OLTP与数据仓库 28
3.6大数据处理 28
3.6.1基础设施方面 31
3.6.2数据处理方面 32
3.7电信大数据研究 32
3.7.1基础设施 34
3.7.2数据处理 34
第4章 大数据技术简介 35
4.1引言 35
4.2分布式数据处理 36
4.3大数据处理需求 38
4.4大数据处理技术 39
4.5 Hadoop 42
4.5.1 Hadoop核心组件 43
4.5.2 Hadoop总结 69
4.6 NoSQL 69
4.6.1 CAP定理 69
4.6.2键-值对:Voldemort 70
4.6.3列簇存储:Cassandra 70
4.6.4文档数据库:Riak 76
4.6.5图数据库 77
4.6.6 NoSQL小结 78
4.7文本ETL处理 78
延伸阅读 79
第5章 大数据驱动的商业价值 80
5.1引言 80
5.2案例研究1:传感器数据 81
5.2.1摘要 81
5.2.2 Vestas 81
5.2.3概述 81
5.2.4利用风力发电 81
5.2.5把气候变成资本 82
5.2.6跟踪大数据的挑战 83
5.2.7维持数据中心的能源效率 83
5.3案例研究2:流数据 84
5.3.1摘要 84
5.3.2监控和安全:TerraE chos 84
5.3.3需求 84
5.3.4解决方案 84
5.3.5效益 84
5.3.6先进的光纤网结合实时流数据 85
5.3.7解决方案组件 85
5.3.8扩展安全边界创建战略优势 85
5.3.9关联传感器数据使得假阳性率为零 86
5.4案例研究3:通过大数据分析改善患者预后 86
5.4.1摘要 86
5.4.2业务目标 87
5.4.3挑战 87
5.4.4概述:给从业人员新的洞察以指导患者护理 87
5.4.5挑战:将传统数据仓库生态系统与大数据融合 87
5.4.6解决方案:为大数据分析做好准备 88
5.4.7结果:消除“数据陷阱” 88
5.4.8为什么是aster 88
5.4.9关于Aurora 89
5.5案例研究4:安大略大学技术学院——利用关键数据,提供积极的患者护理 89
5.5.1摘要 89
5.5.2概述 89
5.5.3商业上的收益 90
5.5.4更好地利用数据资源 90
5.5.5智慧医疗保健 91
5.5.6解决方案组件 91
5.5.7融合人类知识与技术 92
5.5.8扩大Artemis的影响 92
5.6案例研究5:微软SQL Server客户解决方案 93
5.6.1客户画像 93
5.6.2解决方案的亮点 93
5.6.3业务需求 93
5.6.4解决方案 94
5.6.5好处 94
5.7案例研究6:以客户为中心的数据集成 95
5.7.1概述 95
5.7.2解决方案设计 98
5.7.3促成更好的交叉销售和追加销售的机会 99
5.8总结 100
第二部分 数据仓库 102
第6章 再论数据仓库 102
6.1引言 102
6.2传统的数据仓库或DW 1.0 103
6.2.1数据架构 103
6.2.2基础设施 104
6.2.3数据仓库的陷阱 106
6.2.4建立数据仓库的架构方法 111
6.3 DW 2.0 113
6.3.1 Inmon的DW 2.0概述 114
6.3.2 DSS 2.0概述 115
6.4总结 116
延伸阅读 116
第7章 数据仓库的再造 118
7.1引言 118
7.2企业数据仓库平台 118
7.2.1事务型系统 119
7.2.2运营数据存储区 119
7.2.3分段区 120
7.2.4数据仓库 120
7.2.5数据集市 120
7.2.6分析型数据库 121
7.2.7数据仓库的问题 121
7.3再造数据仓库的选择 122
7.3.1平台再造 122
7.3.2平台工程 123
7.3.3数据工程 124
7.4使数据仓库现代化 125
7.5使数据仓库现代化的案例研究 127
7.5.1当前状态分析 127
7.5.2推荐 127
7.5.3现代化的业务收益 128
7.5.4一体机的选择过程 128
7.6总结 132
第8章 数据仓库中的工作负载管理 133
8.1引言 133
8.2当前状态 133
8.3工作负载的定义 134
8.4了解工作负载 135
8.4.1数据仓库输出 136
8.4.2数据仓库输入 137
8.5查询分类 138
8.5.1宽/宽 138
8.5.2宽/窄 139
8.5.3窄/宽 139
8.5.4窄/窄 139
8.5.5非结构化/半结构化数据 140
8.6 ETL和CDC的工作负载 140
8.7度量 141
8.8当前系统设计的局限 142
8.9新工作负载和大数据 143
8.10技术选择 144
8.11总结 144
第9章 应用到数据仓库的新技术 145
9.1引言 145
9.2重新检查数据仓库挑战 145
9.2.1数据加载 145
9.2.2可用性 146
9.2.3数据体量 146
9.2.4存储性能 147
9.2.5查询性能 147
9.2.6数据传输 147
9.3数据仓库一体机 147
9.3.1一体机架构 148
9.3.2一体机中的数据分布 149
9.3.3部署数据仓库一体机最佳实践 150
9.3.4大数据一体机 152
9.4云计算 152
9.4.1基础设施即服务 152
9.4.2平台即服务 152
9.4.3软件即服务 153
9.4.4云基础架构 153
9.4.5云计算给数据仓库带来的好处 154
9.4.6将云计算用于数据仓库所面临的问题 154
9.5数据虚拟化 154
9.5.1数据虚拟化是什么 155
9.5.2提高商务智能性能 156
9.5.3工作负载分布 156
9.5.4实施数据虚拟化项目 156
9.5.5使用数据虚拟化时应避免的误区 157
9.5.6内存技术 157
9.5.7内存架构的好处 157
9.6总结 158
延伸阅读 158
第三部分 构建大数据-数据仓库 160
第10章 大数据和数据仓库的集成 160
10.1引言 160
10.2新数据仓库的组件 160
10.2.1数据层 161
10.2.2算法 162
10.2.3技术层 163
10.3集成策略 164
10.3.1数据驱动的集成 164
10.3.2物理组件集成和架构 167
10.3.3外部数据集成 168
10.4 Hadoop与RDBMS 169
10.5大数据一体机 171
10.6数据虚拟化 172
10.7语义框架 173
10.7.1词法处理 174
10.7.2聚类 174
10.7.3语义知识处理 174
10.7.4信息抽取 175
10.7.5可视化 175
10.8总结 175
第11章 大数据的数据驱动架构 176
11.1引言 176
11.2元数据 177
11.2.1技术元数据 177
11.2.2业务元数据 178
11.2.3上下文元数据 178
11.2.4过程设计级元数据 178
11.2.5程序级元数据 178
11.2.6基础设施元数据 179
11.2.7核心业务元数据 179
11.2.8运营元数据 179
11.2.9商务智能型元数据 180
11.3主数据管理 180
11.4处理数据仓库中的数据 181
11.5处理大数据的复杂性 184
11.5.1处理能力的限制 184
11.5.2处理大数据 184
11.6机器学习 190
11.7总结 193
第12章 大数据的信息管理和生命周期 195
12.1引言 195
12.2信息生命周期管理 195
12.2.1目标 196
12.2.2信息管理策略 196
12.2.3治理 196
12.2.4信息生命周期管理的优点 200
12.3大数据的信息生命周期管理 200
12.3.1示例:信息生命周期管理和社交媒体数据 200
12.3.2测量信息生命周期管理的影响 202
12.4总结 203
第13章 大数据分析、可视化和数据科学家 204
13.1引言 204
13.2大数据分析 204
13.3数据发现 206
13.4可视化 206
13.5数据科学家的角色变迁 207
13.6总结 208
第14章 实施大数据-数据仓库的现实情况 209
14.1引言:构建大数据-数据仓库 209
14.2以客户为中心的业务转型 209
14.3 Hadoop和MySQL驱动创新 212
14.4将大数据集成到数据仓库中 214
14.4.1增强决策制订 215
14.4.2成果 216
14.5总结 216
附录A 客户案例研究 217
附录B 建设医疗保健信息工厂 237
结束语 269