第一部分 大数据入门 1
第1章 大数据基础 3
数据管理的演化过程 4
理解数据管理的几个关键 5
关键1:创建可管理的数据结构 5
关键2:Web和内容管理 7
关键3:管理大数据 7
大数据的定义 9
构建成功的大数据管理架构 10
捕捉、组织、集成分析与模拟 10
建立架构基础 11
性能问题 13
传统与高级分析 15
大数据之旅 16
第2章 研究大数据类型 17
定义结构化的数据 18
探索大结构化数据源 18
理解关系型数据库在大数据中的角色 19
定义非结构化数据 21
探索非结构化数据源 21
理解CMS在大数据管理中的角色 23
理解实时需求和非实时需求 23
聚合大数据 25
管理不同类型的数据 25
将不同类型的数据整合到大数据环境中 25
第3章 当老古董遇上新生代:分布式计算 27
分布式计算简史 27
感谢DARPA 27
可持续模型的价值 28
了解分布式计算基础 29
为什么大数据需要分布式计算 29
计算经济的改变 30
时延带来的问题 30
当需求遇上解决方案 31
获取所需的性能 31
第二部分 大数据的技术基础 33
第4章 深入大数据技术组件 35
探索大数据栈 36
第0层:带冗余的物理基础架构 37
物理冗余网络 38
管理硬件:存储与服务器 39
基础架构操作 39
第1层:安全框架 39
进/出应用程序和互联网的界面与接口 40
第2层:可操作数据库 42
第3层:组织数据服务与工具 43
第4层:可分析的数据仓库 44
大数据分析 45
大数据应用程序 46
第5章 虚拟化及其如何支持分布式计算 47
理解虚拟化的基本知识 47
在大数据中使用虚拟化的重要性 48
服务器虚拟化 50
应用程序虚拟化 50
网络虚拟化 51
处理器和内存虚拟化 51
数据和存储虚拟化 52
使用Hypervisor管理虚拟化 53
抽象化与虚拟化 54
实现在大数据中的虚拟化 54
第6章 云和大数据 56
大数据领域中的云 56
理解云部署和分发模型 57
云部署模型 57
云分发模型 59
大数据需要云 60
在大数据中使用云 61
大数据云市场的服务提供商 62
亚马逊公共弹性计算云(EC2) 63
谷歌的大数据服务 64
微软Azure 64
OpenStack 65
在使用云服务时需要注意什么 65
第三部分 大数据管理 67
第7章 操作型数据库 69
RDBMS在大数据领域的重要性 71
非关系型数据库 72
Key-Value型数据库 73
文档数据库 75
MongoDB 76
CouchDB 77
纵列数据库 78
图形数据库 79
空间数据库 81
混合持久化 83
第8章 MapReduce基础 85
MapReduce溯源 85
理解Map函数 86
添加Reduce函数 88
结合Map和Reduce 89
优化MapReduce 91
硬件/网络拓扑 92
同步 92
文件系统 92
第9章 探索Hadoop的世界 94
谈谈Hadoop 94
理解Hadoop分布式文件系统(HDFS) 95
Name节点 95
数据节点 96
理解HDFS 97
Hadoop的MapReduce 99
准备数据 100
开始Mapping 101
Reduce和融合 101
第10章 Hadoop基础和生态 103
使用Hadoop生态系统构建大数据基础 103
使用Hadoop YARN管理资源和应用程序 104
使用HBase存储大数据 105
使用Hive挖掘大数据 106
使用Hadoop生态系统 107
Pig和Pig Latin 107
Sqoop 108
Zookeeper 109
第11章 设备和大数据仓库 111
使用传统数据仓库装载大数据 111
优化数据仓库 112
区别大数据结构和数据仓库数据 112
一个混合式处理的例子 113
大数据分析和数据仓库 114
集成的关键 115
再思考提取、变换和载入 115
改变数据仓库的角色 116
改变部署模型 116
设备模型 117
云模型 117
数据仓库的未来 117
第四部分 数据分析与大数据 119
第12章 定义大数据分析 121
使用大数据获得结果 121
基本分析 122
高级分析 123
实用性分析 126
货币化分析 126
为掌握大数据修改商务智能产品 126
数据 126
分析算法 127
基础架构支持 128
大数据分析案例研究 128
Orbitz 129
Nokia 129
NASA 129
大数据分析解决方案 130
第13章 理解文本分析和大数据 131
探索非结构化数据 132
理解文本分析 133
分析和提取技术 135
理解信息抽取 136
分类学 137
将结果汇总成结构化数据 138
开始使用大数据 138
客户的声音 138
社交媒体分析 139
大数据文本分析工具 141
Attensity 141
Clarabridge 142
IBM 142
OpenText 142
SAS 143
第14章 大数据分析的定制化 144
构建新的大数据模型 145
理解大数据分析的各种方法 147
大数据分析的定制应用程序 147
大数据分析的半定制化应用程序 149
大数据分析框架的特点 151
由大到小:大数据悖论 153
第五部分 大数据实现 155
第15章 集成数据源 157
识别你需要的数据 157
勘探阶段 158
编制阶段 159
集成和整合阶段 160
理解大数据集成基础 161
定义传统ETL 163
理解ELT——提取、载入和转换 164
大数据质量优化 165
使用Hadoop实现ETL 166
大数据集成的最佳实践 166
第16章 处理实时数据流和复杂事件 168
流数据和复杂事件处理 169
使用流数据 169
数据流 169
流的元数据 171
使用复杂事件处理 172
从流中分离出CEP 173
商务领域的数据流和CEP 174
第17章 可操作的大数据 175
让大数据成为操作过程的一部分 175
集成大数据 175
疾病诊断中的大数据协作 177
理解大数据工作流 180
大数据的有效性、准确性和波动性 181
数据有效性 181
数据波动性 182
第18章 在企业中应用大数据 184
大数据经济学 184
数据类型和数据来源的识别 185
修改业务流或创建新的业务流 187
大数据工作流的技术影响 188
网罗大数据项目的人才 188
计算大数据的投入产出(ROI) 189
企业数据管理和大数据 189
创建大数据实施里程碑 190
理解业务紧迫性 191
正确地预测工作量 191
选择正确的软件开发方法学 191
平衡预算和功能 192
评估风险承受能力 192
迈出第一步 193
第19章 大数据环境的安全和管理 195
大数据下的安全 195
评估业务风险 196
大数据中潜藏的风险 196
理解数据保护 197
数据管理的挑战 198
大数据过程审计 199
定位关键利益者 200
正确运用组织架构 200
为管理风险做准备 200
制订正确的管理规则和质量保障 201
开发管理完善、安全可靠的大数据环境 201
第六部分 现实中的大数据解决方案 203
第20章 大数据对业务的重要性 205
将大数据作为业务规划的工具 205
第一步:规划中引入数据 206
第步:执行分析 206
第三步:检查结果 207
第四步:落实计划 207
规划过程的另一个维度 207
第五步:实时监控 208
第六步:调节影响 208
第七步:适应性实验 208
正确地看待数据分析 208
在正确的基础上开始行动 209
规划大数据 210
调整业务流程 210
第21章 从现实视角看数据分析 212
理解用户对运动型数据的需求 213
流数据对环境的影响 214
使用传感器来提供实时水文信息 215
实时数据的优势 215
流数据对公共政策的影响 216
流数据在医疗行业的应用 217
流数据在能源行业的应用 218
使用流数据提升能量产率 218
使用流数据提升能源产出 218
连接数据流和历史数据与其他实时数据源 219
第22章 从现实视角看大数据分析对业务流程的优化 220
了解企业对大数据分析的需求 220
使用文本分析提升客户体验 221
使用大数据分析进行决策 222
使用大数据分析避免欺诈 224
整合新数据源的商业价值 225
第七部分 十项注意 227
第23章 十条大数据最佳实践 229
理解你的目标 229
建立里程碑 230
发现你的数据 230
清楚你缺少什么数据 230
理解可选技术方案 231
规划大数据安全 231
规划大数据管理策略 231
规划数据管家 232
持续测试 232
学习最佳实践和利用模式 232
第24章 十个大数据资源 234
Hurwitz&Associates 234
标准化组织 234
开放数据基金会 234
云安全联盟 235
美国国家标准和科技机构 235
Apache软件基金会 235
OASIS 235
供应商的网站 236
在线协作套件 236
大数据会议 237
第25章 十条“要”与“不要” 238
要将所有业务单元都涵盖在大数据战略中 238
要评估所有的大数据分发模型 238
要将传统数据源作为大数据战略的一部分 238
要计划持久化元数据 239
要分发你的数据 239
不要依赖于单一的大数据分析方法 239
不要在准备充分之前就膨胀 239
不要忽略数据集成的需求 239
不要忘记安全地管理数据 240
不要忽略数据的管理效率 240
术语表 241