《数据仓库和数据挖掘》PDF下载

  • 购买积分:11 如何计算积分?
  • 作  者:苏新宁等编著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2006
  • ISBN:7302126488
  • 页数:294 页
图书介绍:本书在论述数据仓库和数据挖掘技术基本概念的基础上,系统和深入地剖析了数据仓库的模型,以数据仓库为应用平台的联机分析处理技术,以证券行业为对象的数据仓库的开发实例等,从而为了解和掌握数据仓库和数据挖掘技术提供了一个知识门户。

目录 1

第1章 绪论 1

1.1 企业用户关心的新问题 1

1.2 解决问题的一项新技术——数据仓库 2

1.3 数据仓库的商业应用 3

1.4 数据仓库与信息管理 4

1.5 信息管理的新问题催生数据挖掘 6

1.6 数据挖掘与信息管理 7

1.7 数据仓库与数据挖掘 9

1.8 数据仓库与非结构化数据的管理 10

1.9 数据仓库与传统数据库长期共存 11

第2章 数据仓库概述 13

2.1 从传统数据库到数据仓库 13

2.1.1 传统数据库的不足 13

2.1.2 数据仓库与传统数据库的区别 16

2.2 数据仓库的基本概念 17

2.2.1 外部数据源 18

2.2.2 数据抽取 18

2.2.3 抽取存储区 18

2.2.4 数据清洗 18

2.2.5 数据转换 19

2.2.6 元数据 20

2.2.7 数据集市 21

2.3 数据仓库的体系结构 22

2.3.1 数据仓库系统的三个层次 22

2.3.2 数据仓库的构造模式 24

2.4 数据仓库的特点 25

2.4.1 面向主题 26

2.4.2 数据的集成性 27

2.5 数据仓库的数据组织 28

2.4.3 数据的非易失性 28

2.4.4 数据的时变性 28

2.5.1 数据仓库的数据综合 29

2.5.2 数据仓库中的时间分割 30

2.5.3 数据仓库中的数据组织 32

第3章 数据仓库中的模型 34

3.1 数据仓库中数据模型概述 34

3.2 数据仓库的概念模型 36

3.2.1 企业模型的建立 36

3.2.2 数据模型的规范 37

3.2.3 常见的概念模型 40

3.3 逻辑模型与物理模型 41

3.3.1 逻辑数据模型的特点 42

3.3.2 物理模型的设计要点 43

3.3.3 事实表的设计 44

3.3.4 维度表的设计 45

3.3.5 物理模型的设计对数据仓库性能的影响 46

3.4 元数据模型 47

3.4.1 元数据的类型 48

3.4.2 元数据的作用 49

3.4.3 元数据的收集与维护 50

3.4.4 元数据的使用 52

3.5 数据仓库的粒度模型 53

3.5.1 粒度的划分 54

3.5.2 粒度级别的确定 54

第4章 OLAP技术 56

4.1 OLAP概述 56

4.1.1 OLAP的发展历程与特点 56

4.1.2 OLAP的基本概念 57

4.1.3 OLAP分析的基本操作 60

4.1.4 OLAP与OLTP的比较 63

4.2.1 评价OLAP的十二条准则 64

4.2 OLAP的评价标准 64

4.2.2 对OLAP评价标准的补充 67

4.3 基于多维数据库的OLAP 67

4.3.1 多维数据库 67

4.3.2 MDDB数据中的时间序列 69

4.3.3 MDDB的数据存储与读取 70

4.4 基于RDBMS的OLAP 71

4.4.1 多维数据在RDBMS中的记录 72

4.4.2 星形结构的存储实现 73

4.4.3 MOLAP与ROLAP的比较 75

4.5 OLAP的前端展现 77

4.5.1 OLAP系统的结构 77

4.5.2 OLAP结果的展现方法 79

5.1.1 SQL Server所提供的数据仓库功能 81

5.1.2 SQL Server的安装 81

5.1 SQL Server简介 81

第5章 数据仓库的开发实例 81

5.1.3 Analysis Service窗口的打开与使用 85

5.2 SQL Server中创建数据仓库的准备工作 86

5.2.1 SQL Server中数据库与表的创建 86

5.2.2 DTS的设置与使用 88

5.2.3 分析数据库的建立与数据源的连接 91

5.3 维度的创建 93

5.3.1 创建“客户”维度 94

5.3.2 创建“时间”维度 97

5.3.3 其他维度的创建 98

5.4 多维数据集的创建与处理 99

5.4.1 多维数据集的创建 99

5.4.2 多维数据集的处理 101

5.5.1 多维数据集中数据的浏览 105

5.5 多维数据集数据浏览与OLAP的实施 105

5.5.2 多维数据集中维度的操作与OLAP功能的实现 106

5.6 数据仓库中的数据挖掘 108

5.6.1 SQL Server中数据挖掘的特性 108

5.6.2 决策树挖掘技术的使用 109

5.6.3 Microsoft聚集挖掘技术的应用 113

第6章 数据挖掘概述 115

6.1 数据挖掘基本概念 115

6.1.1 数据挖掘的由来 115

6.1.2 数据挖掘的技术定义 116

6.1.3 数据挖掘的商业定义 117

6.1.4 数据挖掘的对象 118

6.2 数据挖掘基本功能 119

6.2.1 概念描述 119

6.2.3 分类 120

6.2.2 关联分析 120

6.2.4 聚类 121

6.2.5 孤立点分析 121

6.2.6 时序演变分析 121

6.2.7 信息摘要 122

6.2.8 信息抽取 122

6.2.9 元数据挖掘 122

6.3 数据挖掘过程 123

6.3.1 Fayyad过程模型 123

6.3.2 CRISP-DM过程模型 125

6.3.3 数据挖掘过程工作量 129

6.3.4 建立数据挖掘环境 130

6.4 数据挖掘方法 132

6.4.1 决策树 132

6.4.2 神经网络 133

6.4.3 粗糙集 134

6.4.4 遗传算法 135

6.4.5 概率论与数理统计 137

6.4.6 模糊集 137

6.4.7 关联分析 138

6.5 数据挖掘系统发展阶段 138

第7章 数据库挖掘 140

7.1 概念描述 140

7.1.1 概念描述的生成过程 140

7.1.2 概念分层与数据泛化 141

7.1.3 概念分层方法 142

7.1.4 数据泛化方法 144

7.1.5 泛化的表示 147

7.1.6 属性相关分析 148

7.2.1 关联规则相关概念 149

7.1.7 区别性描述 149

7.2 关联规则 149

7.2.2 关联规则分类 151

7.2.3 单维布尔关联规则 151

7.2.4 多层关联规则 155

7.2.5 多维关联规则 156

7.2.6 基于约束的挖掘 159

7.3 分类 161

7.3.1 分类过程与方法 161

7.3.2 决策树分类 162

7.3.3 贝叶斯分类 165

7.3.4 神经网络方法 167

7.4 聚类分析 169

7.4.1 聚类分析概述 169

7.4.3 聚类处理的数据类型 171

7.4.2 聚类处理的数据结构 171

7.4.4 聚类方法分类 174

7.4.5 典型聚类方法 175

7.4.6 孤立点分析 182

7.5 关联规则兴趣度 183

7.5.1 兴趣度的作用 183

7.5.2 客观性兴趣度 183

7.5.3 主观性兴趣度 184

7.5.4 两种标准的综合 185

第8章 文本挖掘 187

8.1 文本挖掘概述 187

8.1.1 文本挖掘的主要技术 187

8.1.2 文本挖掘的一般过程 188

8.1.3 文本挖掘的主要应用 189

8.1.4 文本挖掘对信息检索的影响 189

8.2.1 文本表示 190

8.2 文本的预处理 190

8.2.2 自动分词 191

8.2.3 文本标引 194

8.2.4 文本相似度计算 197

8.2.5 词频矩阵降维 198

8.2.6 去除重复文本 199

8.2.7 文本过滤 200

8.3 文本分类 201

8.3.1 文本分类应用 201

8.3.2 文本分类方法 202

8.3.3 分类效果评价 204

8.4 文本聚类 205

8.4.1 划分聚类法 205

8.4.2 层次聚类法 206

8.4.3 神经网络聚类法 207

8.4.5 网页聚类 208

8.4.4 遗传算法聚类法 208

8.5 自动摘要 209

8.5.1 自动摘要应用 209

8.5.2 自动摘要方法 210

8.5.3 中文自动摘要系统 212

第9章 Web挖掘 214

9.1 概述 214

9.1.1 Web挖掘概念 214

9.1.2 几个相关概念 216

9.1.3 Web挖掘数据源 219

9.1.4 Web挖掘过程 221

9.1.5 Web挖掘的挑战 223

9.2 Web挖掘任务分类 225

9.2.1 Web内容挖掘 226

9.2.2 Web结构挖掘 228

9.2.3 Web使用挖掘 231

9.3 Web挖掘技术分类 234

9.3.1 统计分析 234

9.3.2 关联规则 235

9.3.3 序列模式 236

9.3.4 聚类与分类 237

9.4 Web挖掘的应用 237

9.4.1 在搜索引擎中的应用 238

9.4.2 在网站设计中的应用 239

9.4.3 在电子商务中的应用 240

9.4.4 电子商务网站的Web挖掘实施过程 241

第10章 数据挖掘应用 247

10.1 数据挖掘应用案例 247

10.1.1 生物医学 248

10.1.2 市场业 249

10.1.3 科学研究 250

10.1.4 竞技运动 252

10.1.5 商业银行 252

10.1.6 商务应用 253

10.2 数据挖掘产品 254

10.2.1 产品分类 255

10.2.2 产品介绍 256

10.2.3 产品评价 258

10.2.4 产品选择 260

第11章 数据挖掘与竞争情报系统 262

11.1 竞争情报系统概述 262

11.1.1 竞争情报系统概念 262

11.1.2 数据挖掘应用现状 263

11.2 竞争情报流程 265

11.2.1 数据挖掘应用 265

11.2.2 数据准备 266

11.2.3 关系信息的挖掘 267

11.2.4 指标值的自动抽取 269

11.3 竞争对手分析 272

11.3.1 主要竞争产品的确定 272

11.3.2 选择核心竞争对手的依据 273

11.3.3 潜在竞争对手的类型 274

11.3.4 核心竞争对手的确定 276

11.3.5 挖掘潜在竞争对手 278

11.4 客户分析 278

11.4.1 客户关系管理 279

11.4.2 客户数据收集 281

11.4.3 客户获取 282

11.4.4 客户保持 284

11.4.5 交叉销售 285

11.4.6 客户细分 286

参考文献 289