《大数据导论 关键技术与行业应用最佳实践》PDF下载

  • 购买积分:13 如何计算积分?
  • 作  者:深圳国泰安教育技术股份有限公司大数据事业部群,中科院深圳先进技术研究院——国泰安金融大数据研究中心编著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2015
  • ISBN:9787302392712
  • 页数:370 页
图书介绍:大数据即将带来一场颠覆性的革命,它将推动社会生产取得全面进步,助推政府、金融、医疗、教育、零售、制造业、能源和交通等行业产生根本性的变革。本书全面阐释了大数据的概念、相关的技术和应用的现状,使读者对大数据的相关技术、应用和产业链能有一个比较清晰的认识。本书适合高等院校的计算机相关专业的本专科生、研究生,IT行业的从业人员和对大数据感兴趣的人士阅读。

第1章 大数据概论 1

1.1 什么是大数据 1

1.1.1 大数据的概念 2

1.1.2 大数据的特征 2

1.1.3 大数据的产生 4

1.1.4 数据的量级 5

1.1.5 大数据的数据类型 6

1.1.6 大数据的潜在价值 8

1.1.7 大数据的挑战 8

1.2 大数据与商业智能 9

1.2.1 商业智能的概念 9

1.2.2 商业智能的架构体系 10

1.2.3 商业智能的核心技术 11

1.2.4 商业智能的研究内容和发展方向 13

1.2.5 商业智能与大数据的关系 14

1.2.6 商业智能与大数据的结合应用 15

1.3 大数据相关技术与应用概况 17

1.3.1 大数据的相关技术 17

1.3.2 大数据的应用概况 19

1.4 大数据热点问题与发展趋势介绍 21

1.4.1 大数据的热点问题 21

1.4.2 大数据的发展趋势 23

1.5 练习 25

参考文献 25

第2章 数据组织存储技术 27

2.1 数据存储概述 27

2.1.1 数据存储介质 27

2.1.2 数据存储模式 28

2.1.3 大数据存储存在的问题 30

2.2 数据存储技术研究现状 32

2.2.1 传统关系型数据库 32

2.2.2 新兴的数据存储系统 33

2.3 海量数据存储的关键技术 36

2.3.1 数据划分 37

2.3.2 数据一致性与可用性 37

2.3.3 负载均衡 38

2.3.4 容错机制 39

2.3.5 虚拟存储技术 40

2.3.6 云存储技术 41

2.4 数据仓库 42

2.4.1 数据仓库的相关概念 42

2.4.2 数据仓库体系结构 50

2.4.3 数据仓库设计与实施 51

2.4.4 数据抽取、转换和装载 54

2.4.5 联机分析处理 57

2.5 练习 64

参考文献 64

第3章 NoSQL 66

3.1 NoSQL简介 66

3.1.1 什么是NoSQL 66

3.1.2 什么是关系型数据库 68

3.1.3 NoSQL数据库与关系型数据库的比较 68

3.2 NoSQL的三大基石 70

3.2.1 CAP 71

3.2.2 BASE 73

3.2.3 最终一致性 74

3.3 key-value数据库 78

3.3.1 Redis 78

3.4 Column-oriented数据库 80

3.4.1 Bigtable 80

3.4.2 Apache Cassandra 81

3.4.3 HBase 81

3.5 图存数据库 89

3.5.1 Neo4j 89

3.6 文档数据库 93

3.6.1 CouchDB 93

3.6.2 MongoDB 95

3.7 NewSQL数据库 96

3.7.1 NewSQL数据库简介 96

3.7.2 MySQLCluster 97

3.7.3 VoltDB 99

3.8 分布式缓存系统 100

3.9 练习 103

参考文献 103

第4章 Hadoop和MapReduce 104

4.1 Hadoop简介 104

4.2 Hadoop的体系结构 105

4.2.1 HDFS的体系结构 105

4.2.2 MapReduce的体系结构 106

4.2.3 其他组件 106

4.2.4 Hadoop的I/O操作 107

4.2.5 Hadoop与分布式开发 111

4.3 Hadoop的安装与配置 112

4.3.1 在Windows上安装与配置Hadoop 112

4.3.2 在Linux上安装与配置Hadoop 120

4.4 Hadoop应用案例 126

4.4.1 Last·fm 126

4.4.2 Facebook 128

4.5 MapReduce模型概述 130

4.5.1 Map和Reduce函数 132

4.5.2 MapReduce工作流程 132

4.5.3 并行计算的实现 136

4.6 实例分析:WordCount 138

4.6.1 WordCount设计思路 140

4.6.2 WordCount代码 141

4.6.3 过程解释 144

4.7 练习 146

参考文献 146

第5章 数据查询和分析的高级技术 148

5.1 SQL on Hadoop查询技术 148

5.1.1 Hive:基本的查询技术 149

5.1.2 Hive的优化和升级 153

5.1.3 实时交互式SQL查询 155

5.1.4 基于PostgreSQL的SQLon Hadoop 157

5.2 数据分析的方法与技术 158

5.2.1 基本分析方法 159

5.2.2 高级分析方法 164

5.2.3 可视化技术 174

5.3 常用分析工具介绍 179

5.3.1 统计分析工具 179

5.3.2 数据挖掘工具 182

5.3.3 可视化设计工具 185

5.4 练习 188

参考文献 189

第6章 数据挖掘技术 190

6.1 数据挖掘简介 190

6.2 关联分析 192

6.2.1 基本概念 193

6.2.2 经典频集算法 194

6.2.3 FP Growth 194

6.2.4 多层关联规则 195

6.2.5 多维关联规则 195

6.3 分类与回归 195

6.3.1 基本概念 196

6.3.2 决策树 197

6.3.3 贝叶斯分类算法 199

6.3.4 人工神经网络 201

6.3.5 支持向量机 204

6.3.6 其他分类方法 206

6.3.7 回归 209

6.4 聚类分析 211

6.4.1 基本概念 211

6.4.2 划分方法 212

6.4.3 层次方法 213

6.4.4 基于密度的方法 215

6.4.5 基于网格的方法 215

6.4.6 基于模型的方法 216

6.4.7 双聚类方法 217

6.5 离群点检测 219

6.5.1 基本概念 219

6.5.2 基于统计的离群点检测 220

6.5.3 基于距离的离群点检测 220

6.5.4 基于偏差的离群点检测 221

6.6 复杂数据类型挖掘 222

6.7 数据挖掘的研究前沿和发展趋势 223

6.7.1 数据挖掘的应用 224

6.7.2 数据挖掘中的隐私问题 225

6.7.3 数据挖掘的发展趋势 225

6.8 练习 227

参考文献 227

第7章 数据分析语言R 229

7.1 R概述 229

7.1.1 R是什么 229

7.1.2 R的获取与安装 230

7.1.3 R的使用 231

7.1.4 R包 233

7.2 R的数据操作 234

7.2.1 数据结构 234

7.2.2 数据输入 236

7.3 绘图功能简介 240

7.3.1 管理绘图 240

7.3.2 绘图函数 242

7.3.3 绘图参数 244

7.3.4 基本图形 246

7.4 R的初级数据分析 250

7.4.1 描述性统计分析 252

7.4.2 频数表和列联表 255

7.4.3 相关分析 258

7.4.4 t检验 261

7.4.5 回归分析 262

7.4.6 方差分析 268

7.5 R的高级数据分析 271

7.5.1 广义线性模型 271

7.5.2 聚类分析 274

7.5.3 判别分析 276

7.5.4 主成分分析 277

7.5.5 因子分析 279

7.6 R在大数据处理中的应用 284

7.6.1 R处理大数据 284

7.6.2 R与Hadoop交互 286

7.7 练习 287

参考文献 288

第8章 大数据用于预测和决策 289

8.1 利用分析技术作决策的发展历史和展望 289

8.1.1 利用分析技术作决策的发展历程 289

8.1.2 大数据决策的展望 291

8.2 统计预测和决策概述 292

8.2.1 统计预测的作用及方法 292

8.2.2 统计决策的概述及方法 294

8.3 大数据预测决策的关键 295

8.4 大数据分析用于商业的预测决策 297

8.4.1 乐购——分析客户消费信息 297

8.4.2 Netflix——了解客户的真正需求 297

8.4.3 哈拉斯——使用客户数据 298

8.4.4 大通银行——决策树方法分析按揭数据 298

8.4.5 好事达——采用高级预测分析技术 299

8.5 大数据时代给政府决策管理带来的机遇与挑战 299

8.5.1 大数据提升政府的决策管理能力 299

8.5.2 大数据浪潮中政府面临的挑战 301

8.5.3 政府以变革来顺应大数据时代 303

8.6 大数据时代的跨界与颠覆 305

8.6.1 大数据时代,颠覆浪潮席卷传统产业 305

8.6.2 大数据时代,全新的投资理念和巨大的投资机会 308

8.7 练习 309

参考文献 309

第9章 大数据与市场营销 311

9.1 大数据时代的营销模式创新 311

9.1.1 营销模式的突出优势 311

9.1.2 营销模式的创新之举 313

9.2 大数据时代下的网络化精准营销 315

9.2.1 精准营销概述 315

9.2.2 网络精准营销模式 316

9.3 大数据应用与商业机会 318

9.3.1 车载信息服务数据在汽车保险业中的价值 318

9.3.2 RFID数据在零售制造业中的价值 319

9.3.3 大数据在医疗行业中的价值 319

9.3.4 社交网络数据在电信业及其他行业中的价值 320

9.3.5 遥测数据在视频游戏中的价值 321

9.4 大数据时代的商业变革 321

9.4.1 大数据时代商业思维的变革 322

9.4.2 大数据时代管理的变革 323

9.4.3 大数据时代营销的变革 324

9.4.4 大数据时代产业链的变革 325

9.5 大数据提高企业竞争力 326

9.6 练习 329

参考文献 330

第10章 大数据应用案例 331

10.1 大数据在金融行业中的应用案例 331

10.1.1 摩根大通信贷市场分析 331

10.1.2 奥马哈外汇风险敞口和实时数据分析 332

10.1.3 瑞士银行集合风险分析 333

10.1.4 汇丰银行多维度的历史数据分析和异常值快速分析 334

10.1.5 对冲基金选择Datawatch来观察实时的市场流数据 335

10.1.6 衍生品交易公司的交易活动的浏览与分析 336

10.1.7 跨国保险公司连接多个数据库来进行风险分析 336

10.2 大数据在医疗行业中的应用案例 337

10.2.1 美国糖尿病患者分布情况分析 337

10.2.2 医疗机构病房的实时监控 339

10.2.3 流行病学研究 341

10.3 大数据在互联网企业中的应用案例 344

10.3.1 亚马逊 344

10.3.2 淘宝网 345

10.3.3 Facebook 346

10.4 大数据在影视行业中的应用案例 346

10.4.1 大数据分析节目收视特征和用户喜好 346

10.4.2 大数据分析电影票房 348

10.5 练习 350

参考文献 350

第11章 大数据应用的主流解决方案 352

11.1 Cloudera大数据解决方案 352

11.2 Hortonworks大数据解决方案 352

11.3 MapR大数据解决方案 354

11.4 亚马逊大数据解决方案 355

11.5 IBM大数据解决方案 357

11.6 甲骨文大数据解决方案 359

11.7 EMC大数据解决方案 360

11.8 英特尔大数据解决方案 362

11.9 SAP大数据解决方案 363

11.10 Teradata大数据解决方案 365

11.11 微软大数据解决方案 366

11.12 国泰安大数据解决方案 368

11.13 练习 370

参考文献 370