《数据工程 处理、分析与服务》PDF下载

  • 购买积分:13 如何计算积分?
  • 作  者:岳昆编著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2013
  • ISBN:9787302339762
  • 页数:368 页
图书介绍:随着数据在不同应用中地位的不断提升及数据格式的日益多样化,基于数据的网络信息服务已成为IT技术的核心和未来发展的方向;大数据是目前所关注的焦点,数据工程是其中的重点问题。本书以“数据-知识-服务”为主线,以数据处理、分析和服务的代表性方法与技术为重点,全面介绍了数据工程有关的技术,包括关系数据库的设计与查询优化、信息检索与Web搜索引擎、XML数据管理、数据挖掘与数据仓库、Web服务、数据密集型计算等。

数据处理篇 3

第1章 关系数据库查询优化 3

1.1数据库设计 4

1.1.1数据库设计概述 4

1.1.2 ER模型 5

1.1.3关系模型 13

1.1.4从ER模型到关系模型 19

1.1.5规范化简介 24

1.2面向复杂应用的数据查询 26

1.2.1连接查询、嵌套查询和集合查询 26

1.2.2视图、存储过程和触发器 29

1.3查询优化 33

1.3.1基于索引的查询优化 33

1.3.2基于数据库模式反规范化和视图物化的查询优化 52

1.3.3基于数据查询语句重写的查询优化 58

第2章 信息检索 65

2.1信息检索概述 66

2.1.1信息检索的概念和基本原理 66

2.1.2信息检索的相关学科和研究内容 68

2.1.3信息检索的发展史 70

2.2信息检索模型 71

2.2.1信息检索系统的形式表示 71

2.2.2布尔模型 72

2.2.3向量空间模型 73

2.2.4经典概率模型 76

2.3文本信息检索 78

2.3.1词汇的频率与数量分布规律 79

2.3.2文本信息预处理 80

2.3.3文本信息的倒排索引 81

2.3.4布尔检索 85

2.3.5相关反馈和提问式扩展 86

2.3.6 Lucene:一个开源的全文信息检索引擎 88

2.4 Web信息检索 89

2.4.1 Web信息搜索的概念 90

2.4.2 Web搜索引擎的工作原理 91

2.4.3 Web搜索引擎的关键技术 92

2.5信息检索评价指标 98

2.5.1信息检索评价的基本步骤 99

2.5.2单个查询的评价指标 100

2.5.3多个查询的评价指标 102

2.5.4面向用户的评价指标 102

2.5.5搜索引擎性能评价指标 103

2.5.6 TREC评测 104

第3章 XML数据管理 107

3.1 XML语法 107

3.1.1 XML简介 107

3.1.2 XML文档结构 109

3.1.3 XPath和XQuery查询语言 118

3.2 XML数据模型 125

3.2.1半结构化数据 125

3.2.2 XML数据模型 127

3.3 XML数据处理 132

3.3.1 XML解析 132

3.3.2 XML数据库系统概述 135

3.3.3 XML存储 137

3.3.4 XML数据索引 146

3.3.5 XML查询处理 152

3.4 XML数据库性能评测 156

3.4.1性能基准 156

3.4.2评测数据集 158

数据分析篇 163

第4章 数据挖掘 163

4.1数据挖掘概述 164

4.1.1数据挖掘的内涵和任务 164

4.1.2数据挖掘的过程 166

4.2数据清理 169

4.2.1数据质量管理的基本思想 169

4.2.2数据清理流程 171

4.2.3数据清理方法 172

4.3数据分析 178

4.3.1数据分类分析 178

4.3.2数据聚类分析 189

4.3.3算法评价 201

第5章 数据仓库 205

5.1数据仓库概述 206

5.1.1数据仓库的基本概念 206

5.1.2从操作型系统到信息型系统 207

5.2数据仓库体系结构 208

5.2.1一般的两层体系结构 208

5.2.2独立数据集市的数据仓库体系结构 209

5.2.3依赖数据集市和操作型数据存储体系结构——三层结构 210

5.2.4逻辑数据集市和实时数据仓库体系结构 211

5.3联机分析处理 213

5.3.1 OLAP的概念和基本操作 213

5.3.2 OLAP的体系结构 217

数据服务篇 231

第6章 Web服务 231

6.1 Web服务的基本概念 232

6.1.1企业应用集成与电子商务 232

6.1.2 Web服务技术架构 235

6.2 Web服务的标准协议 241

6.2.1 WSDL 241

6.2.2 SOAP 246

6.2.3 UDDI 254

6.3 Web服务质量 263

6.3.1 Web服务质量属性 264

6.3.2 Web服务质量度量 266

6.3.3 Web服务质量保证概述 272

6.4 Web服务发现与组合 274

6.4.1基于类型的Web服务发现与组合 274

6.4.2基于QoS的Web服务发现与组合 276

6.4.3基于工作流的Web服务发现与组合 277

6.4.4基于AI规划的Web服务发现与组合 282

6.4.5 Web服务组合标准规范 284

6.5 Web服务安全 289

6.5.1 Web服务安全问题 289

6.5.2 Web服务安全标准和模型 291

6.5.3 Web服务安全支撑技术 303

第7章 数据密集型计算 307

7.1数据密集型计算的基本概念 308

7.1.1背景与挑战 308

7.1.2数据密集型计算的含义 312

7.2数据密集型计算的支撑技术 312

7.2.1 Google数据密集型计算技术 312

7.2.2 Yahoo!数据密集型计算技术 323

7.3海量数据管理 332

7.3.1支持海量数据管理的计算平台 333

7.3.2海量数据处理 337

7.3.3海量数据分析 346

参考文献 365