当前位置:首页 > 工业技术
数据仓库与数据挖掘
数据仓库与数据挖掘

数据仓库与数据挖掘PDF电子书下载

工业技术

  • 电子书积分:13 积分如何计算积分?
  • 作 者:武森等著
  • 出 版 社:北京:冶金工业出版社
  • 出版年份:2003
  • ISBN:7502432949
  • 页数:379 页
图书介绍:数据仓库技术是一种适用于决策支持系统的数据组织与管理技术,它不同于传统的数据库管理系统。数据仓库技术可以对计算机存储的信息进行提炼和加工,为企业领导提供集成化和历史化的数据,为企业全局的战略决策和长期趋势分析提供更有效的支持。
《数据仓库与数据挖掘》目录

目录 1

1 数据仓库概述 1

1.1 数据仓库的产生 1

1.2 数据仓库的含义 3

1.3 数据仓库的特征 5

1.4 操作型数据库系统与数据仓库 7

1.5 数据仓库的基本结构 9

本章要点 11

2 数据仓库相关概念 12

2.1 主题 12

2.2 粒度 13

2.3 维度 15

2.4 数据立方体 17

2.5 联机分析处理 20

2.6 数据集市 23

本章要点 25

3 多维数据模型 27

3.1 实体-关系模型与多维模型 27

3.1.1 实体-关系模型 27

3.1.2 多维数据模型 28

3.1.3 多维数据模型的优势 30

3.2 星形模式 32

3.2.1 星形模式的含义 32

3.2.2 主码、外码和代理码 34

3.2.3 事实表 36

3.2.4 维表 38

3.3 星形模式的种类 39

3.3.1 简单星形模式 39

3.3.2 星系模式 39

3.3.3 星座模式 41

3.3.4 二级维表 42

3.3.5 雪花模式 42

3.4 数据仓库的总线型结构 44

3.4.1 总线型结构的含义 44

3.4.2 统一的维 45

3.4.3 统一的事实 46

3.4.4 数据仓库的总线 47

本章要点 49

4 数据仓库的体系结构 51

4.1 体系结构的内容 51

4.1.1 总体框架 51

4.1.2 技术体系结构 52

4.2 相关的数据存储 54

4.2.1 数据源 55

4.2.2 主题数据 56

4.2.3 预处理数据 58

4.2.4 查询服务数据 60

4.3 相关的数据服务 61

4.3.1 后台数据预处理 61

4.3.2 前台数据查询服务 62

4.4 相关的数据管理——元数据 64

4.4.1 元数据的含义 64

4.4.2 元数据的内容 65

4.4.3 元数据的工作流程 67

本章要点 69

5 数据仓库的数据组织 71

5.1 事实表和维表的设计 71

5.1.1 事实数据和维数据的区分 71

5.1.2 事实表的设计 72

5.1.4 常见维设计举例 75

5.1.3 维表的设计 75

5.2 数据聚集的设计 79

5.2.1 数据聚集的含义 79

5.2.2 数据聚集的创建方法 80

5.3 数据仓库中的索引 82

5.3.1 传统的数据库索引技术 82

5.3.2 事实表的索引 84

5.3.3 维表的索引 85

5.3.4 数据仓库索引举例 86

5.3.5 数据仓库索引新技术 88

5.4 数据库的物理设计 91

5.4.1 物理设计的内容 91

5.4.2 数据库对象的命名规范 92

5.4.3 物理模型的建立 93

5.4.4 数据仓库的数据量估计 95

本章要点 96

6 数据仓库的数据预处理 98

6.1 数据的净化 98

6.1.1 数据质量与数据净化 98

6.1.2 数据净化的方法 100

6.1.3 其他提高数据质量的方法 102

6.2 数据预处理计划 104

6.2.1 初步计划 104

6.2.2 详细计划 106

6.3 维表的数据预处理 108

6.3.1 维表的基本数据预处理 108

6 3.2 代理码的分配 110

6.3.3 维表的变更处理 111

6.4 事实表的数据预处理 113

6.4.1 事实表的基本数据预处理 113

6.4.2 非代理码的替换 115

6.4.3 数据聚集的更新维护 116

本章要点 117

7 联机分析处理——OLAP 119

7.1 基于多维模型的数据分析 119

7.1.1 OLAP的含义与特征 119

7.1.2 OLAP的基本操作 120

7.2 数据仓库建设与OLAP应用例 123

7.2.1 订货分析主题 123

7.2.2 数据源分析 124

7.2.3 订货分析的星形模式 125

7.2.4 订货分析的DTS包 130

7.2.5 订货分析的OLAP实践 135

本章要点 138

8 数据仓库的规划与管理 139

8.1 数据仓库系统的生命周期 139

8.2 项目的准备 141

8.3 项目团队的组织 142

8.4 项目的进度安排 144

8.5 项目的文档管理 145

本章要点 146

9 数据挖掘概述 148

9.1 KDD与数据挖掘 148

9.2 KDD过程 150

9.3 数据挖掘的任务 152

9.4 数据仓库与数据挖掘 153

本章要点 155

10 数据挖掘的数据准备 157

10.1 数据准备概述 157

10.1.1 数据准备的内容 157

10.1.2 与数据仓库的比较 159

10.2.1 异常值处理 161

10.2 数据的应用变换 161

10.2.2 数据标准化 164

10.2.3 数据泛化 166

10.2.4 数据聚集 169

10.3 数据的精简 170

10.3.1 属性子集选择 170

10.3.2 主成分分析 171

10.3.3 离散小波转换 172

10.3.4 回归方法 174

10.3.5 数据抽样 175

本章要点 177

11 聚类分析 179

11.1 聚类分析概述 179

11.1.1 聚类分析的含义 179

11.1.2 聚类方法的分类 180

11.1.3 数据挖掘应用对聚类分析的要求 181

11.2 差异度的计算方法 183

11.2.1 区间变量 183

11.2.2 二态变量 184

11.2.3 分类变量 186

11.2.4 序数变量 187

11.2.5 计算中的其他问题 188

11.3 分割聚类方法 190

11.3.1 分割聚类方法概述 190

11.3.2 k means算法 191

11.3.3 PAM算法 194

11.3.4 CLARA算法 196

11.3.5 CLARANS算法 197

11.4 层次聚类方法 200

11.4.1 层次聚类方法概述 200

11.4.2 层次聚类基本算法 202

11.4.3 BIRCH算法 204

11.4.4 CURE算法 208

11.5 基于密度的聚类方法 211

11.5.1 基于密度的聚类方法概述 211

11.5.2 DBSCAN算法 213

11.5.3 OPTICS算法 215

11.5.4 基于密度和网格的CLIQUE算法 218

11.6 高维稀疏聚类CABOSFV算法 221

11.6.1 算法的主要思想 221

11.6.2 算法的概念基础 223

11.6.3 算法的聚类过程 225

11.6.4 算法举例 227

本章要点 231

12.1.1 分类发现的含义与过程 233

12.1 分类发现概述 233

12 分类发现 233

12.1.2 分类模型的评估标准 234

12.1.3 分类发现的主要方法 236

12.2 决策树算法 237

12.2.1 决策树算法概述 237

12.2.2 决策树的生成 238

12.2.3 决策树生成举例 240

12.2.4 决策树剪枝举例 243

12.2.5 从决策树中提取规则 244

12.3 ID3算法 245

12.3.1 ID3算法的决策属性选择方法 245

12.3.2 ID3算法示例 246

12.3.3 树的剪枝 249

12.3.4 ID3的几种改进方法 250

12.4 ID3改进算法CAMM 251

12.4.1 CAMM算法的概念基础 252

12.4.2 CAMM算法的处理过程 254

12.4.3 CAMM算法决策树生成举例 255

12.4.4 CAMM算法的规则提取 259

12.4.5 决策树算法与数据仓库技术的集成 261

12.5 贝叶斯分类 264

12.5.1 贝叶斯原理 265

12.5.2 简单贝叶斯分类 266

12.5.3 贝叶斯信念网络 269

12.6 基于神经网络BP算法的分类 271

12.6.1 多层前馈神经网络 271

12.6.2 BP算法 273

12.6.3 BP算法的解释 275

12.6.4 其他分类算法 276

本章要点 278

13.1.1 关联规则的基本概念 281

13 关联规则发现 281

13.1 关联规则概述 281

13.1.2 描述关联规则的参数 282

13.1.3 关联规则分类 285

13.1.4 发现关联规则的过程 286

13.2 Apriori算法 286

13.2.1 Apriori算法概述 287

13.2.2 Apriori性质与算法步骤 288

13.2.3 Apriori算法举例 290

13.2.4 由频繁集产生关联规则 293

13.2.5 Apriori算法的几种优化方法 294

13.3 FP-growth方法 297

13.3.1 FP-growth方法的概念与步骤 297

13.3.2 FP-tree的建立 298

13.3.3 在FP-tree上挖掘关联规则 299

13.4 多层与多维关联规则 302

13.4.1 概念树 302

13.4.2 自上而下挖掘多层关联规则 303

13.4.3 自下而上挖掘多层关联规则 307

13.4.4 多维关联规则 310

13.4.5 数值属性的离散化 311

13.5 具有利润约束的关联规则 314

13.5.1 利润约束 315

13.5.2 具有利润约束的频繁集 316

13.5.3 具有利润约束的关联规则发现算法 318

13.5.4 算法示例 320

13.5.5 其他约束条件 322

本章要点 325

14.1.1 分布式数据挖掘简介 327

14.1 分布式数据挖掘 327

14 数据挖掘的发展与应用 327

14.1.2 分布式数据挖掘系统 329

14.1.3 研究现状 331

14.2 分布式数据挖掘算法 332

14.2.1 分布式关联规则 333

14.2.2 分布式分类算法 337

14.3 数据挖掘软件发展 340

14.3.1 系统功能的发展 341

14.3.2 应用模式的发展 342

14.4 数据挖掘标准 344

14.4.1 过程标准 344

14.4.2 实现标准 351

本章要点 358

名词索引 360

参考文献 372

相关图书
作者其它书籍
返回顶部