《数据仓库与数据挖掘》PDF下载

  • 购买积分:11 如何计算积分?
  • 作  者:廖开际主编
  • 出 版 社:北京市:北京大学出版社
  • 出版年份:2008
  • ISBN:9787301143131
  • 页数:252 页
图书介绍:本书是一本较系统地介绍数据仓库与数据挖掘的理论体系和应用的图书。本书总的指导思想是在掌握基本知识和基本理论的基础上,更强调实际应用能力的培养。全书力求深入浅出、通过通俗的语言及案例分析介绍了数据仓库及数据挖掘的基本概念及相关理论与方法。从数据仓库的定义、结构、设计、构建方法及联机分析处理(OLAP)应用等方面对数据仓库做了较为详细地介绍。从数据挖掘的定义、数据预处理、常用数据挖掘算法等方面对数据挖掘的基本知识和算法等理论做了介绍。本书强调数据仓库和挖掘工具的应用,重点介绍了SQL Sserver 2005数据仓库和数据挖掘工具的应用。在附录中还详细地介绍了一个优秀而又简单好用的数据挖掘工具——Weka,该工具可作为读者学习数据挖掘时的实验工具。

第1章 企业数据资源管理 1

1.1数据资源的概念 2

企业资源 2

数据资源 3

数据资源管理及其发展历程 3

1.2数据资源管理的意义 5

信息系统进入成熟阶段的重要标志 5

解决企业内部数据不一致问题的根本途径 5

数据资源的管理和应用是取得竞争优势的关键 6

1.3信息资源管理的相关技术 7

数据资源管理的技术框架 7

技术框架中的构成要素 8

技术框架中各部分的关联 10

1.4企业通过数据仓库与数据挖掘获得竞争优势 11

本章小结 14

思考与练习 19

第2章 数据仓库的概念与结构 22

2.1数据仓库的概念 23

数据仓库的定义 23

数据仓库的特征 24

数据集市 26

2.2数据仓库系统 27

数据源 27

数据仓库管理层 28

数据仓库工具集 28

2.3数据仓库中的数据组织 29

粒度的概念 30

面向主题的数据组织 30

数据分割 32

元数据的管理 33

本章小结 36

思考与练习 39

第3章 数据仓库的设计与开发 42

3.1数据仓库的开发过程及特点 43

数据仓库开发的生命周期 44

数据仓库开发的特点 45

数据仓库设计的主要内容 45

3.2数据模型设计 47

概念模型设计 47

逻辑模型设计 48

物理模型设计 55

3.3数据仓库的粒度设计 57

设计步骤 57

设计原则 59

3.4创建数据仓库的基本步骤 60

建立运营环境文档 60

选择数据仓库的实现技术 61

设计数据仓库模型 62

创建数据准备区 62

创建数据仓库数据库 62

从操作型系统中抽取数据 62

清理和转换数据 63

将数据装入数据仓库数据库 63

准备显示信息 64

将数据分发到数据集市 64

本章小结 64

思考与练习 69

第4章 联机分析处理 75

4.1 OLAP的基本概念 76

OLAP的发展背景 76

联机分析处理是数据仓库系统的一个应用 77

4.2 OLAP与多维分析 79

OLAP的一些基本概念 79

理解数据立方 80

OLAP的基本分析操作 81

4.3 OLAP的分类 87

ROLAP 87

MOLAP 87

HOLAP 87

4.4 OLAP的特性与不足 88

OLAP的特性 88

OLAP的不足 89

4.5 SQL Server 2005统一维度模型 90

结构 90

优点 92

本章小结 93

思考与练习 94

第5章 数据挖掘概述 98

5.1数据挖掘技术的由来 100

信息爆炸但知识贫乏 100

支持数据挖掘技术的基础 101

从商业数据到商业信息的进化 101

数据挖掘逐渐演变的过程 102

5.2数据挖掘的定义 102

技术角度的定义 102

商业角度的定义 103

数据挖掘与传统分析方法的区别 103

数据挖掘和数据仓库 103

数据挖掘和OLAP 104

数据挖掘、机器学习和统计 104

5.3数据挖掘发现的知识类型 105

广义知识 105

关联知识 105

分类知识 106

预测知识 106

偏差知识 107

5.4数据挖掘流程 107

知识发现过程 107

数据挖掘对象 109

数据挖掘任务 112

数据挖掘分类 115

数据预处理 117

5.5数据挖掘的方法和技术 121

信息论方法 121

集合论方法 121

神经网络方法 122

遗传算法 122

模糊数学 124

公式发现 124

可视化技术 124

知识表示 124

本章小结 126

思考与练习 129

第6章 数据预处理 133

6.1数据预处理的目的及方法 134

原始数据中存在的问题 135

数据预处理的常用方法 135

6.2数据清理 136

处理空缺值 137

噪声数据的处理 138

6.3数据集成 141

模式匹配 141

数据冗余 142

数据冲突 143

6.4数据变换 143

6.5数据归约 146

数据立方体聚集 146

维归约 147

数据压缩 149

数值归约 150

离散化和概念分层 153

本章小结 155

思考与练习 157

第7章 数据挖掘中的常用算法 162

7.1 Apriori算法 163

基本原理 163

Apriori算法的基本思想与分析 164

从频繁项集产生关联规则 166

7.2决策树算法 167

信息论的基本原理 168

ID3算法 169

树剪枝 172

由决策树提取分类规则 173

7.3神经网络算法 173

神经网络的基本原理 174

反向传播模型 175

定义神经网络拓扑结构 178

神经网络的工作过程 179

7.4聚类分析 180

聚类分析的概念 180

聚类分析中的数据类型 180

几种主要的聚类分析方法 184

K_means聚类分析算法 185

本章小结 187

思考与练习 189

第8章 SQL Server数据仓库与数据挖掘工具及其应用 197

8.1 SQL Server 2005的功能构架 198

8.2 SQL Server数据仓库设计与数据挖掘准备 199

SQL Server数据仓库创建思路 199

SQL Server数据挖掘过程 200

案例数据准备 201

8.3 SQL Server集成服务 203

SQL Server集成服务的作用 203

控制流 204

数据流 204

设计和使用ETL 206

8.4 SQL Server分析服务 209

创建Analysis Services项目 209

定义数据源 210

定义数据源视图 212

用Analysis Services创建维与多维数据集 214

部署Analysis Services项目 218

8.5 SQL Server中的数据挖掘工具与应用 219

8.6 SQL Server报表服务 222

创建报表 222

使用报表 226

本章小结 227

思考与练习 230

附录A 一个简易的数据挖掘工具——Weka 232

参考文献 252