《Oracle大数据解决方案》PDF下载

  • 购买积分:12 如何计算积分?
  • 作  者:(美)普伦凯特,(美)麦克唐纳,(美)纳尔逊著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2015
  • ISBN:9787302385516
  • 页数:302 页
图书介绍:本书由Oracle大数据团队核心成员执笔,介绍了如何使用Oracle公司发布的一系列围绕大数据的产品,获取、组织、分析和利用非结构化数据,涉及Apache Hadoop、Oracle Big Data Appliance、Oracle Big Data Connectors、Oralce NoSQL Database、Oracle Endeca、Oracle Advanced Analytics等。从旧系统移植并将已有数据仓库和分析解决方案集成到企业的大数据基础设施也在本书讨论之列。

第Ⅰ部分 引言 3

第1章 大数据简介 3

1.1 大数据 3

1.2 谷歌的MapReduce算法和Apache Hadoop 4

1.3 Oracle的大数据平台 5

1.4 总结 8

第2章 大数据的价值 9

2.1 我是大数据吗?还是大数据是我? 10

2.2 大数据,小数据——仍然是数据 12

2.2.1 什么已经发生了? 12

2.2.2 现在发生了什么? 13

2.3 请看看现实! 14

2.4 你想把它做成什么? 16

2.5 大数据,大数字,大企业? 17

2.5.1 Twitter 18

2.5.2 Facebook 19

2.5.3 内部源 19

2.5.4 ICR:连接 20

2.5.5 ICR:变更 20

2.6 需要:大数据的价值 22

2.6.1 大数据案例1:医疗行业的临床试验研究 23

2.6.2 大数据案例2:在汽车行业的汽车设计中改进驾驶员安全 23

2.7 总结 24

第Ⅱ部分 大数据平台 27

第3章 Apache Hadoop平台 27

3.1 软件与硬件 28

3.2 Hadoop的软件平台 28

3.2.1 Hadoop的发布与版本 29

3.2.2 Hadoop Distributed File System(HDFS) 29

3.2.3 调度、计算和处理 31

3.3 操作系统的选择 33

3.4 Hadoop硬件平台 34

3.4.1 CPU和内存 34

3.4.2 网络 34

3.4.3 磁盘 35

3.5 整合在一起 35

第4章 选择Appliance的理由 37

4.1 Oracle创建大数据机的理由 38

4.2 Appliance的概念 39

4.3 Oracle BigData Appliance的发展目标 39

4.4 Appliance优化 39

4.5 Oracle Big DataAppliance第2版软件 40

4.6 Oracle大数据机X3-2硬件 42

4.7 Oracle获取Hadoop知识的地方 44

4.8 配置Hadoop集群 45

4.8.1 选择核心集群组件 45

4.8.2 组装集群 47

4.9 自己组建的集群 48

4.10 集群总成本 49

4.11 时间价值 52

4.12 如何打造更大的集群 53

4.13 Oracle大数据机可否支持其他软件 53

4.14 一体机的缺陷 54

第5章 BDA配置、部署架构和监控 55

5.1 介绍 56

5.1.1 大数据机X3-2满配机架(18个节点) 57

5.1.2 大数据机X3-2入门机架(6个节点) 60

5.1.3 大数据机X3-2扩展机架(6个节点) 63

5.1.4 BDA的硬件修改 63

5.1.5 大数据机X3-2的软件支持 63

5.2 BDA安装和配置过程 64

5.3 关键和非关键节点 65

5.4 NameNode故障自动切换 66

5.5 BDA磁盘存储布局 67

5.6 为Hadoop集群增加存储 69

5.7 仅有Hadoop配置和Hadoop+NoSQL数据库 70

5.7.1 仅有Hadoop的一体机 70

5.7.2 Hadoop和NoSQL数据库 71

5.8 内存选项 72

5.9 部署架构 72

5.9.1 云中的多租户和Hadoop 72

5.9.2 可扩展性 74

5.9.3 BDA多机架的注意事项 74

5.10 在BDA上安装其他软件 75

5.11 数据中心的BDA 75

5.11.1 管理网络 75

5.11.2 客户端访问网络 76

5.11.3 Infiniband私有网络 76

5.11.4 网络需求 76

5.11.5 连接到数据中心的局域网 78

5.11.6 连接架构的例子 78

5.12 Oracle大数据机的使用限制 78

5.13 BDA的管理和监控 79

5.13.1 企业管理器 80

5.13.2 Cloudera管理器 82

5.13.3 Hadoop的监控工具:Web图形用户界面 83

5.13.4 Oracle ILOM 84

5.13.5 Hue 86

5.13.6 DCLI工具 86

第6章 为大数据集成数据仓库和分析基础架构 87

6.1 数据仓库作为存储历史记录的数据库 88

6.1.1 Oracle数据库作为数据仓库 88

6.1.2 为什么要把数据仓库和Hadoop部署在一起 89

6.2 完成路径:业务分析师工具 90

6.3 扩建基础设施 91

第7章 BDA连接器 93

7.1 Oracle Big Data Connectors 94

7.2 Oracle Loader for Hadoop 95

7.2.1 在线模式 96

7.2.2 Oracle OCI Direct Path Output 97

7.2.3 JDBC Output 97

7.2.4 离线模式 98

7.2.5 Oracle Data Pump Output 98

7.2.6 带分隔符的文本输出 99

7.3 安装Oracle Loader for Hadoop 99

7.4 调用Oracle Loader for Hadoop 100

7.5 输入格式 100

7.5.1 DelimitedTextInputFormat 101

7.5.2 RegexInputFormat 102

7.5.3 AvroInputFormat 102

7.5.4 HiveToAvroInputFormat 102

7.5.5 KVAvroInputFormat 102

7.5.6 自定义输入格式 103

7.6 Oracle Loader for Hadoop配置文件 103

7.6.1 Loader Maps 105

7.6.2 额外的优化 106

7.6.3 利用Infiniband 107

7.6.4 对比Apache Sqoop 107

7.7 Oracle SQL Connector for HDFS 108

7.8 安装Oracle SQL Connector forHDFS 110

7.9 Hive安装 112

7.10 使用Oracle SQL Connector for HDFS创建外部表 113

7.10.1 ExternalTable配置工具 113

7.10.2 数据源类型 113

7.10.3 配置工具语法 114

7.10.4 必需的属性 114

7.10.5 可选属性 115

7.10.6 针对带分隔符的ExternalTable工具 115

7.10.7 在使用--noexecute选项的情况下测试DDL 117

7.10.8 在位置文件里增加一个新的HDFS文件 118

7.10.9 外部表的手动配置 118

7.11 Hive源 119

7.12 Oracle Data Pump源 121

7.13 配置文件 122

7.14 使用Oracle SQL Connector for HDFS查询 124

7.15 Oracle R Connector for Hadoop 125

7.16 Oracle Data Integrator Application Adapter for Hadoop 125

第8章 Oracle NoSQL数据库 129

8.1 NoSQL数据库系统的定义 130

8.2 Oracle NoSQL数据库 131

8.3 架构 133

8.3.1 客户端驱动程序 134

8.3.2 键-值对 134

8.3.3 存储节点 136

8.3.4 复制 136

8.3.5 智能拓扑 137

8.3.6 在线的灵活性 137

8.3.7 没有单点故障 138

8.4 数据管理 138

8.4.1 API 138

8.4.2 CRUD操作 138

8.4.3 多种更新操作 139

8.4.4 查找操作 139

8.4.5 事务 139

8.4.6 可预测的性能 140

8.5 集成 141

8.6 安装和管理 142

8.6.1 简单安装 142

8.6.2 管理 142

8.7 Oracle NoSQL数据库的特性 142

8.8 有用的链接 143

第Ⅲ部分 分析信息和制定决策 147

第9章 数据库库内分析:快速交付彰显时间价值 147

9.1 介绍 148

9.1.1 Oracle数据库内分析 149

9.1.2 为什么在数据库内运行如此重要 151

9.2 Oracle数据挖掘和统计分析介绍 151

9.2.1 Oracle库内高级分析 152

9.2.2 Oracle数据挖掘 153

9.2.3 R语言介绍 159

9.2.4 文本挖掘 165

9.3 库内统计函数 168

9.4 空间分析 169

9.4.1 理解空间数据模型 170

9.4.2 查询空间数据模型 170

9.4.3 使用空间分析 171

9.4.4 让BI工具更聪明 171

9.5 基于图形分析 172

9.5.1 图形数据模型 172

9.5.2 查询图形数据 172

9.6 多维分析 174

9.7 库内分析:综合范例 176

9.7.1 在ETL过程中集成分析 176

9.7.2 提供指导浏览 176

9.7.3 提供混搭式分析 176

9.8 总结 177

第10章 使用R分析数据 179

10.1 Open Source R介绍 180

10.1.1 CRAN、Packages和Task View 180

10.1.2 GUI和IDE 182

10.2 传统的R与数据库交互对比Oracle R Enterprise 183

10.3 Oracle针对R的战略 185

10.3.1 Oracle R Enterprise 185

10.3.2 Oracle R Distribution 186

10.3.3 ROracle 186

10.3.4 Oracle R Connector for Hadoop 187

10.4 Oracle R Enterprise:下一级视图 187

10.5 Oracle REnterprise安装和配置 188

10.6 使用Oracle R Enterprise 189

10.6.1 透明层 189

10.6.2 嵌入式R执行 199

10.6.3 预测分析 213

10.7 OracleRConnectorforHadoop 225

10.7.1 调用MapReduce Job 227

10.7.2 在非Hadoop集群下测试ORCH R脚本 227

10.7.3 用R与HDFS交互 228

10.7.4 HDFS MetadataDiscovery 229

10.7.5 基于ORCH框架来使用Hadoop 231

10.7.6 在Hadoop上的预测分析 232

10.7.7 ORCHhive 233

10.7.8 Oracle R Connector forHadoop与Oracle R Enterprise之间的交互 235

10.8 总结 236

第11章 Endeca信息发现 237

11.1 为什么Oracle选择Endeca 237

11.2 Endeca信息发现平台 239

11.2.1 主要功能域 239

11.2.2 主要特性 239

11.3 Endeca信息发现与商业智能 241

11.3.1 作用和功能不同 241

11.3.2 BI开发过程与信息发现方法对比 242

11.3.3 互补而非互斥 243

11.4 架构 244

11.4.1 Oracle Endeca服务器 244

11.4.2 Oracle Endeca工作室 246

11.4.3 Oracle Endeca集成套件 248

11.4.4 Exalytics上的Endeca 249

11.4.5 可伸缩性和负载均衡 250

11.5 统一多种内容集 253

11.5.1 Endeca不同之外 253

11.5.2 行业用例 253

11.6 Endeca实际操作 255

11.6.1 安装与配置 255

11.6.2 开发Endeca应用 256

第12章 大数据治理 259

12.1 企业数据治理的要素 260

12.1.1 业务输出 260

12.1.2 信息生命周期管理 260

12.1.3 合规性和风险管理 261

12.1.4 元数据管理 261

12.1.5 数据质量管理 261

12.1.6 主数据和引用数据管理 262

12.1.7 数据安全和隐私管理 262

12.1.8 业务流程调整 263

12.2 大数据怎样影响企业数据治理 263

12.2.1 模型化的数据和原始数据 263

12.2.2 大数据的类型 265

12.2.3 在大数据上应用数据治理 267

12.2.4 利用大数据治理 269

12.3 特定行业的案例 272

12.3.1 公共事业 272

12.3.2 卫生医疗 273

12.3.3 金融服务 274

12.3.4 零售行业 275

12.3.5 大众消费品 276

12.3.6 通信行业 277

12.3.7 石油和天然气 278

12.4 大数据如何对数据治理的角色产生影响 279

12.5 实施大数据治理的一种方法 280

第13章 大数据开发架构和路线图 283

13.1 大数据功能架构 283

13.1.1 大数据的新特点 284

13.1.2 大数据概念功能架构 285

13.1.3 产品功能和工具 285

13.1.4 制定大数据架构决策 287

13.2 架构开发流程实现增值 288

13.2.1 Oracle信息架构框架概述 288

13.2.2 采用OADP的信息架构概述 291

13.2.3 大数据架构开发流程 293

13.3 对数据管理和BI过程的影响 298

13.3.1 传统BI开发过程 298

13.3.2 大数据和分析开发过程 298

13.4 大数据治理 299

13.4.1 传统数据治理的关注点 299

13.4.2 大数据治理新的关注点 299

13.5 开发技能和人才 300

13.5.1 数据科学家 300

13.5.2 大数据开发人员 301

13.5.3 大数据管理员 301

13.6 大数据最佳实践 301

13.6.1 让大数据活动结合特定业务目标 301

13.6.2 确保集中化IT战略的标准和治理 301

13.6.3 使用卓越中心来最小化培训和风险 301

13.6.4 大数据与结构化数据关联 301

13.6.5 提供高性能和可伸缩的分析沙箱 302

13.6.6 重塑IT运营模式 302