《数据仓库基础》PDF下载

  • 购买积分:17 如何计算积分?
  • 作  者:(美)Paulraj Ponniah著;段云峰等译
  • 出 版 社:北京:电子工业出版社
  • 出版年份:2004
  • ISBN:7505397842
  • 页数:573 页
图书介绍:本书全面而详细地讲述了关于数据仓库每一个重要部分的内容,包括计划、需求、体系、基础、结构、设计、数据准备、信息传递、配置和维护等。本书编排合理,每章提供本章主题,本章小结,可以使读者将每一个概念和技术同数据仓库的实践和市场结合起来;还提供复习思考题和练习供读者巩固学习到的知识。总之,本书几乎涵盖了数据仓库领域所有方面的知识,如果你想成为数据仓库领域专家,它是值得一读的。本书是专门为IT专业人员而量身定做的介绍数据仓库知识的书籍,适合于想掌握数据仓库基础知识的系统分析员、程序员、数据分析员、数据库管理员、项目经理和软件工程师阅读,还非常适合作为大中院校相关专业的教科书或培训用书,供自学人员、大学课程或科研机构使用。

第1章 对数据仓库的迫切需求 1

本章目标 1

1.1 对战略信息的不断增长的需求 2

1.1.1 信息危机 4

1.1.2 技术趋势 5

1.1 机遇和风险 6

1.2 以往的决策支持系统的失败 8

1.2.1 决策支持系统的历史 9

1.2.2 缺乏提供战略信息的能力 10

1.3.1 使商业运作起来 11

1.3 操作型系统和决策支持系统 11

1.3.3 不同的范围,不同的目 12

1.3.2 监视商业的运作 12

1.4.1 一种新类型的系统环境 13

1.4 数据仓库——惟一可行的解决方案 13

1.4.3 数据仓库的商业智能 14

1.4.2 新环境下的需求处理 14

1.5.1 数据仓库是信息传递的一种简单概念 15

1.5 数据仓库的定义 15

1.5.3 数据仓库是多种技术的混合体 16

1.5.2 数据仓库是种环境,而不是产品 16

本章小结 17

练习题 18

复习思考题 18

本章目标 20

第2章 数据仓库的组成部分 20

2.1.1 面向主题的数据 21

2.1 定义的特点 21

2.1.2 综合的数据 22

2.1.4 数据的非易变性 24

2.1.3 数据的时间特性 24

2.1.5 数据粒度 26

2.2.1 它们有什么不同 27

2.2 数据仓库和数据集市 27

2.2.2 自上而下和自下而上的方法 28

2.2.3 一个实用的方法 29

2.3 数据仓库的组成部分 30

2.3.1 源数据部分 31

2.3.2 数据准备部分 34

2.3.4 信息传递部分 37

2.3.3 数据存储部分 37

2.3.5 元数据部分 38

2.4.1 元数据的类型 39

2.4 数据仓库中的元数据 39

2.3.6 管理和控制部分 39

2.4.2 元数据的特殊意义 40

复习思考题 41

本章小结 41

练习题 42

本章目标 43

第3章 数据仓库的发展趋势 43

3.1.1 数据仓库正在成为主流 44

3.1 数据仓库的持续成长 44

3.1.2 数据仓库的扩张 45

3.1.3 解决方案和产品 46

3.2.1 多种数据类型 48

3.2 重要趋势 48

3.2.2 数据可视化 51

3.2.3 并行处理 53

3.2.5 浏览工具 55

3.2.4 查询工具 55

3.2.7 多维分析 56

3.2.6 数据融合 56

3.2.9 企业组合数据 57

3.2.8 代理技术 57

3.2.10 数据仓库和ERP 58

3.2.11 数据仓库和知识管理 59

3.2.12 数据仓库和CRM 60

3.3 标准的出现 62

3.2.13 活跃的数据仓库 62

3.3.1 元数据 63

3.3.2 OLAP 64

3.4.1 将数据仓库放入Web中 65

3.4 支持Web的数据仓库 65

3.4.2 将Web技术引入数据仓库 66

3.4.3 支持Web技术的配置 67

复习思考题 68

本章小结 68

练习题 69

本章目标 70

第4章 规划和项目管理 70

4.1.1 关键问题 71

4.1 规划你的数据仓库 71

4.1.2 商业需求,而非技术 74

4.1.4 数据仓库的可行性分析 75

4.1.3 高层管理的支持 75

4.2 数据仓库项目 77

4.1.5 全盘计划 77

4.2.1 有什么不同 78

4.2.2 准备情况的评估 79

4.2.3 生命周期方法 80

4.2.4 开发的各阶段 82

4.3.1 组织项目团队 83

4.3 项目团队 83

4.3.2 角色和责任 84

4.3.3 技能和经验水平 87

4.3.4 用户参与 88

4.4 项目管理要素 89

4.4.1 项目管理的指导原则 90

4.4.2 警告征兆 91

4.4.3 成功的因素 92

4.4.4 成功项目细审 93

4.4.5 采用实用的方法 94

本章小结 95

练习题 96

复习思考题 96

5.1 维度分析 98

本章目标 98

第5章 定义商业需求 98

5.1.2 商业数据的维度 99

5.1.1 对不可预知的信息的使用 99

5.1.3 商业维度的例子 101

5.2.1 不完全确定的需求 102

5.2 信息包——一个新概念 102

5.2.3 维度层次和分类 104

5.2.2 商业维度 104

5.2.5 关键商业指标或事实 106

5.3 收集需求的方法 108

5.3.1 采访技巧 109

5.3.2 调整联合应用程序设计方法 111

5.3.3 回顾已有的文档 113

5.4 需求定义:范围和内容 114

5.4.2 数据转换 115

5.4.1 数据源 115

5.4.6 需求定义文档提纲 116

5.4.5 信息包表 116

5.4.3 数据存储 116

5.4.4 信息传递 116

复习思考题 117

本章小结 117

练习题 118

本章目标 120

第6章 需求——数据仓库的驱动力 120

6.1 数据设计 121

6.1.1 商业维度的结构 123

6.1.3 细节层次 124

6.1.2 关键衡量指标的结构 124

6.2 体系结构规划 125

6.2.1 组成部分的构成 126

6.2.2 特殊因素 127

6.2.3 工具和产品 130

6.3 数据存储规范 132

6.3.1 数据库管理系统的选择 133

6.3.2 存储规模估计 134

6.4 信息传递策略 135

6.4.1 查询和报表 136

6.4.4 决策支持应用程序 137

6.4.3 信息分发 137

6.4.2 分析的类型 137

复习思考题 138

本章小结 138

6.4.5 发展和扩大 138

练习题 139

7.1.1 体系结构:定义 141

7.1 掌握数据仓库的体系结构 141

第7章 体系结构及其组成部分 141

本章目标 141

7.1.2 三个要区域的体系结构 142

7.2 区别其他结构的特点 143

7.2.1 不同目标和范围 144

7.2.3 复杂分析和快速响应 145

7.2.2 数据内容 145

7.2.5 元数据驱动 146

7.2.4 灵活性和动态性 146

7.3.1 支持数据流的体系结构 147

7.3 体系结构框架 147

7.3.2 管理和控制模块 148

7.4 技术体系结构 149

7.4.1 数据获取 151

7.4.2 数据存储 154

7.4.3 信息传递 156

本章小结 158

练习题 159

复习思考题 159

8.1 支持体系结构的基础构造 161

本章目标 161

第8章 数据仓库的基础构造 161

8.1.2 物理基础构造 163

8.1.1 操作型基础构造 163

8.2 硬件和操作系统 165

8.2.1 平台选择 166

8.2.2 服务器硬件 178

8.3 数据库软件 183

8.3.1 并行处理方案 184

8.3.2 数据库管理系统的选择 186

8.4 工具收集 187

8.4.1 先设计好体系结构,再选择工具 188

8.4.4 数据转换 189

8.4.3 数据抽取 189

8.4.2 数据建模 189

8.4.8 联机分析处理(OLAP) 190

8.4.7 查询和报表 190

8.4.5 数据装载 190

8.4.6 数据质量 190

本章小结 191

8.4.11 数据仓库管理 191

8.4.9 预警系统 191

8.4.10 中间件及连接部件 191

练习题 192

复习思考题 192

9.1 元数据的重要性 194

本章目标 194

第9章 元数据的重要角色 194

9.1.1 数据仓库的关键需求 196

9.1.2 为什么元数据对最终用户很关键 200

9.1.3 为什么元数据对IT人员很关键 201

9.1.4 数据仓库任务自动化 203

9.1.5 建立信息上下文 205

9.2 按功能区域划分的元数据类型 206

9.2.1 数据获取 207

9.2.2 数据存储 208

9.2.3 信息传递 210

9.3.1 内容总揽 211

9.3 商业元数据 211

9.3.2 商业元数据举例 212

9.3.4 谁会受益 213

9.3.3 内容重点 213

9.4.2 技术元数据举例 214

9.4.1 内容总揽 214

9.4 技术元数据 214

9.4.4 谁会受益 216

9.4.3 内容重点 216

9.5 如何提供元数据 217

9.5.1 元数据需求 218

9.5.2 元数据的来源 219

9.5.3 元数据管理面临的挑战 221

9.5.4 元数据储存库 222

9.5.6 实施选项 224

9.5.5 元数据集成与标准 224

本章小结 226

练习题 227

复习思考题 227

10.1 从需求到数据设计 229

本章目标 229

第10章 维度建模的原则 229

10.1.2 维度建模基础 230

10.1.1 设计决策 230

10.1.3 E-R建模与维度建模的对比 235

10.1.4 使用CASE工具 236

10.2.1 一个简单简的星型模式的回顾 237

10.2 星型模式 237

10.2.2 维度表的内容 240

10.2.3 事实表的内容 242

10.2.4 不含事实的事实表 244

10.2.5 数据粒度 245

10.3.1 主键 246

10.3 星型模式的键 246

10.3.2 替代键 247

10.4 星型模式的优势 248

10.3.3 外键 248

10.4.1 用户容易理解 249

10.4.2 优化浏览 250

10.4.3 最适于查询处理 251

本章小结 252

10.4.4 星型连接和星型索引 252

练习题 253

复习思考题 253

本章目标 255

第11章 维度建模:高级专题 255

11.1 维度表的更新 256

11.1.1 慢速变化中的维度 256

11.1.2 第1类修改:改正错误 257

11.1.3 第2类修改:保存历史数据 259

11.1.4 第3类修改:暂时的(软性的)修改 260

11.2 各式各样的维度 262

11.2.1 大维度 263

11.2.2 快速变化中的维度 264

11.2.3 废弃维度 266

11.3 雪花型模式 267

11.3.1 规范化选项 268

11.3.2 优势与劣势 269

11.3.3 什么时候使用雪花型模式 270

11.4 聚集事实表 271

11.4.1 事实表的大小 273

11.4.3 对事实表进行聚集 275

11.4.2 对聚集的需求 275

11.4.4 聚集的选项 281

11.5 星型模式族 283

11.5.1 快照表和事务表 284

11.5.2 核心表和定制表 285

11.5.3 支持企业价值链或者价值环 286

11.5.4 使维度一致 287

11.5.5 将事实表标准化 288

11.5.6 星型模式族小结 289

复习思考题 290

本章小结 290

练习题 291

本章目标 292

第12章 数据抽取、转换和装载 292

12.1 ETL概览 293

12.1.1 最重要和最具有挑战性 294

12.1.2 耗时而且费劲 295

12.1.3 ETL的需求和步骤 296

12.1.4 关键因素 297

12.2 数据抽取 298

12.2.1 数据源确认 299

12.2.2 数据抽取技术 300

12.2.3 技术的评估 307

12.3 数据转换 309

12.3.1 数据转换:基本任务 310

12.3.2 主要转换类型 311

12.3.4 数据整合和合并 313

12.3.5 维度属性的转换 315

12.3.6 如何实施转换 316

12.4 数据装载 318

12.4.1 应用数据:技术和过程 319

12.4.2 数据的刷新和更新 322

12.4.3 维度表的规程 323

12.4.4 事实表:历史与增量的装载 324

12.5 ETL总结 325

12.5.1 ETL工具选项 326

12.5.2 再次强调ETL中的元数据(Metadata) 327

12.5.3 ETL的总结和方法 328

本章小结 329

练习题 330

复习思考题 330

本章目标 332

第13章 数据质量:成功的关键 332

13.1 为什么数据质量如此重要 333

13.1.1 什么是数据质量 334

13.1.2 提高数据质量的好处 337

13.1.3 数据质量问题的类型 338

13.2 数据质量的挑战 341

13.2.1 数据污染的来源 342

13.2.2 姓名和地址的行效性 344

13.2.3 数据质量低劣带来的代价 345

13.3.2 错误发现特性 346

13.3.1 数据清洗工具的分类 346

13.3 数据质量工具 346

13.3.4 数据库管理系统的质量控制 347

13.3.3 数据修正特性 347

13.4 确保数据质量的第一步 348

13.4.1 数据清洗的决策 349

13.4.2 谁应该负责 352

13.4.3 净化过程 353

13.4.4 对数据质量的实用建议 355

复习思考题 356

本章小结 356

练习题 357

本章目标 359

第14章 信息和用户类型之间的匹配 359

14.1.1 数据仓库和操作型系统 360

14.1 来自于数据仓库的信息 360

14.1.2 信息潜力 362

14.1.3 用户—信息接口 366

14.2 谁将使用这些信息 368

14.1.4 行业应用 368

14.2.1 用户的种类 369

14.2.2 他们需要什么 372

14.2.3 怎样为用户提供信息 376

14.3 信息传递机制 377

14.3.1 查询 379

14.3.2 报表 381

14.3.3 分析 382

14.4.4 应用程序 383

14.5.1 桌面电脑环境 384

14.5 信息传递工具 384

14.5.2 工具选择的方法学 385

14.5.3 选择工具的标准 389

14.5.4 信息传递框架 390

本章小结 391

复习思考题 392

练习题 393

本章目标 394

第15章 数据仓库中的联机分析处理(OLAP) 394

15.1.1 对多维分析的需要 395

15.1 联机分析处理的要求 395

15.1.2 快速的访问和强大的计算能力 397

15.1.3 其他分析方法的局限性 399

15.1.4 联机分析处理(OLAP)是用户需要的答案 401

15.1.5 OLAP的定义和规则 403

15.1.6 OLAP的特征 405

15.2.1 一般特征 406

15.2 主要的特征和功能 406

15.2.2 维度分析 407

15.2.3 什么是超立方体 411

15.2.4 下钻和概括化的操作 416

15.2.5 多层次/多视角查看或旋转的操作 418

15.3 OLAP模型 419

15.2.6 OLAP的使用和好处 419

15.3.1 变种的概述 420

15.3.2 MOLAP模型 421

15.3.3 ROLAP模型 422

15.3.4 ROLAP 与 MOLAP 423

15.4 OLAP实施的考虑事项 424

15.4.1 数据设计和准备 425

15.4.2 管理和性能 428

15.4.3 OLAP平台 429

15.4.4 OLAP工具和产品 430

15.4.5 实施步骤 431

复习思考题 432

本章小结 432

练习题 433

本章目标 434

第16章 数据仓库和Web 434

16.1 支持Web的数据仓库 435

16.1.1 为什么是Web 436

16.1.2 技术的结合 438

16.1.3 调整数据仓库以支持Web 439

16.1.4 作为数据源的Web 440

16.2 基于Web的信息传递机制 441

16.2.1 扩展的数据仓库的使用 442

16.2.2 新的信息策略 444

16.2.3 数据仓库的浏览器技术 447

16.2.4 安全问题 449

16.3.1 企业OLAP 450

16.3 OLAP和Web 450

16.3.3 OLAP引擎的设计 451

16.3.2 Web-OLAP方法 451

16.4 建立支持Web的数据仓库 452

16.4.1 数据网络仓库的性质 453

16.4.2 对如何实现数据网络仓库的考虑 455

16.4.3 将组件放在一起 456

16.4.4 Web处理模型 457

本章小结 458

练习题 459

复习思考题 459

本章目标 461

第17章 数据挖掘基础 461

17.1 数据挖掘是什么 462

17.1.1 定义数据挖掘 463

17.1.2 知识发现过程 465

17.1.3 OLAP和数据挖掘 468

17.1.4 数据挖掘和数据仓库 470

17.2 主要的数据挖掘技术 472

17.2.1 聚簇检测(clusterdetection) 473

17.2.2 决策树 476

17.2.3 基于记忆的推理 478

17.2.4 关联分析 479

17.2.5 神经网络 482

17.2.6 遗传算法 484

17.2.7 进入数据挖掘 486

17.3 数据挖掘的应用 489

17.3.1 数据挖掘的收益 490

17.3.2 在零售业的应用 491

17.3.3 在电信行业中的应用 492

本章小结 493

17.3.4 在银行和金融业的应用 493

练习题 494

复习思考题 494

本章目标 496

第18章 物理设计过程 496

18.1.1 建立标准 497

18.1 物理设计步骤 497

18.1.3 确定数揣分区方案 498

18.1.2 建立聚集计划 498

18.1.5 准备索引策略 499

18.1.4 建立聚簇选项 499

18.2 物理设计考虑的因素 500

18.1.7 完成物理建模 500

18.1.6 安排存储结构 500

18.2.1 物理设计目标 501

18.2.2 从逻辑模型到物理模型 502

18.2.3 物理模型的组成 503

18.2.4 标准的意义 505

18.3 物理存储 507

18.3.2 优化存储 508

18.3.1 存储区数据结构 508

18.3.3 使用RAID技术 511

18.3.4 估计存储容量 512

18.4 为数据仓库建立索引 513

18.4.1 索引一览 513

18.4.2 B-Tree索引 515

18.4.3 位图索引 516

18.4.4 簇索引 518

18.4.5 为事实表建立索引 518

18.4.6 为维度表建立索引 519

18.5 提高性能的技术 519

18.5.1 数据分区 520

18.5.2 数据聚簇 521

18.5.3 并行查询 521

18.5.4 汇总级别 522

18.5.5 参考完整性检查 522

18.5.6 初始化参数 522

18.5.7 数据阵列 523

本章小结 523

复习思考题 524

练习题 524

第19章 数据仓库部署 526

本章目标 526

19.1 部署的主要任务 527

19.1.1 完成用户认可 527

19.1.2 执行初始装载 528

19.1.3 准备好用户桌面 530

19.1.4 完成初始用户培训 530

19.1.5 建立最初户支持 531

19.1.6 按阶段部署 532

19.2 领航系统 533

19.2.1 领航数据集市什么时候用 534

19.2.2 领航系统的类型 535

19.2.3 选择领航系统 537

19.2.4 扩展和集成领航系统 539

19.3 安全 539

19.3.1 安全政策 540

19.3.2 管理用户权限 541

19.3.3 密码 542

19.3.4 安全工具 542

19.4 备份和恢复 543

19.4.1 为什么备份数据仓备库 543

19.4.2 备份策略 544

19.4.3 建立一个实际的日程表 545

19.4.4 恢复 546

本章小结 547

复习思考题 548

练习题 548

第20章 升级和维护 550

本章目标 550

20.1 监视数据仓库 551

20.1.1 统计数据收集 552

20.1.2 为升级划使统计数据 553

20.1.3 为优化使用统计数据 554

20.1.4 向用户公布趋势 554

20.2 用户培训和支持 555

20.2.1 用户培训内容 555

20.2.2 准备培训计划 557

20.2.3 执行培训计划 558

20.2.4 用户支持 559

20.3 管理数据仓库 561

20.3.1 平台升级 561

20.3.2 数据增长管理 562

20.3.3 存储管理 562

20.3.4 ETL管理 563

20.3.5 数据模型修订 564

20.3.6 信息传递增强 564

20.3.7 持续的优化 565

本章小结 565

复习思考题 566

练习题 566

附录A 项目生存期步骤和列表 567

附录B 成功的关键因素 571

附录C 评估供应商解决方案的指南 572