《数据仓库与数据挖掘导论》PDF下载

  • 购买积分:11 如何计算积分?
  • 作  者:李于洪编著
  • 出 版 社:北京:经济科学出版社
  • 出版年份:2012
  • ISBN:9787514122374
  • 页数:264 页
图书介绍:本书是数据仓库与数据挖掘的基础教程。用实例分析引导学生理解数据仓库与数据挖掘的概念及其产生背景,介绍了关联分析方法、神经网络算法、决策树算法和聚类分析方法,提供了数据仓库实验等。

第一篇 导引 3

第1章 数据仓库概念与内涵 3

1.1数据仓库概念 3

1.1.1数据仓库的产生 4

1.1.2数据仓库应用实例:理解数据仓库的应用目标与作用 5

1.2数据仓库的四个基本特征 9

1.2.1数据仓库的数据是面向主题的 10

1.2.2数据仓库的数据是集成的 11

1.2.3数据仓库的数据是不可更新的 12

1.2.4数据仓库的数据是随时间不断变化的 13

1.3数据集市——部门级数据仓库 13

1.3.1自上而下构建数据集市 13

1.3.2自下而上构建数据集市 15

1.3.3自上而下与自下而上结合构建数据集市 16

习题 20

讨论题 20

第2章 数据挖掘概念与内涵 21

2.1数据挖掘概念 21

2.1.1数据挖掘的产生 22

2.1.2数据挖掘应用实例:理解数据挖掘的应用目标与作用 22

2.1.3数据挖掘的定义 26

2.2数据仓库与数据挖掘的关系 27

讨论题 27

第二篇 数据仓库 31

第3章 数据仓库的体系结构及其组成部分 31

3.1数据仓库的体系结构 31

3.2数据仓库的组成部分及其功能 32

3.2.1源数据部分 32

3.2.2数据准备部分 34

3.2.3数据存储部分 56

3.2.4信息传递部分 57

思考题 58

习题 58

讨论题 58

第4章 数据仓库数据的商业需求分析 60

4.1收集商业需求数据碰到的问题 60

4.2商业数据维度化分析 60

4.3商业维度实例分析 62

思考题 66

习题 66

第5章 数据仓库的维度建模 67

5.1维度建模基础 67

5.2星型模式及其查询的钻取 71

5.2.1星型模式维度表内容的特征 72

5.2.2星型模式事实表内容的特征 74

5.2.3星型模式的优势 76

5.3雪花型模式:对维度表的再处理 77

5.4聚集事实表:对关键指标的再处理 80

5.4.1理解事实表的数据量 81

5.4.2理解聚集事实表的作用 82

5.4.3对事实表进行聚集的三种方法 82

5.4.4聚集过程中相关问题讨论 85

思考题 87

习题 87

第6章 数据仓库中的联机分析处理——OLAP 88

6.1 OLAP的含义、规则与特征 88

6.1.1 OLAP的含义 89

6.1.2 OLAP的规则 89

6.1.3 OLAP的特征 91

6.2 OLAP的基本操作 92

6.2.1切片 92

6.2.2切块 93

6.2.3上钻与下钻 93

6.2. 46.24旋转 94

6.3 OLAP模型结构 95

6.3.1关系联机分析处理(ROLAP)结构 95

6.3.2多维联机分析处理(MOLAP)结构 95

6.3.3混合联机分析处理(HOLAP)结构 95

6.3.4桌面联机分析处理(DOLAP)结构 95

6.3.5客户联机分析处理(COLAP)结构 95

6.4典型OLAP模型的数据组织与应用 95

6.4.1 ROLAP的数据组织与应用 96

6.4.2 MOLAP的数据组织与应用 97

6.4.3 ROLAP与MOLAP的数据组织与应用比较 98

思考题 99

习题 100

讨论题 100

第7章 元数据 101

7.1数据仓库中元数据的重要性 102

7.1.1数据仓库的用户需要元数据 102

7.1.2数据仓库的开发者需要元数据 104

7.1.3数据仓库的管理员需要元数据 104

7.2关于数据仓库元数据的概念界定 105

7.3元数据的几种分类方法 106

7.3.1按用途对元数据进行分类 107

7.3.2按数据仓库功能区域划分的元数据分类 108

7.3.3按元数据的活动方式进行分类 110

7.4元数据的作用 111

7.5元数据管理的体系结构 112

7.5.1集中的方法 113

7.5.2分散的方法 115

7.5.3分布的方法 115

思考题 116

习题 116

讨论题 117

第三篇 数据挖掘 121

第8章 关联分析 121

8.1关联规则概念 121

8.1.1关联规则的支持度和置信度 121

8.1.2关联规则分类 124

8.2关联规则挖掘算法 125

8.2.1 Apriori算法 125

8.2.2强关联规则的有效性和可行性问题 133

习题 135

讨论题 136

第9章 神经网络算法 137

9.1神经网络概念 137

9.1.1神经网络原理 137

9.1.2人工神经网络 138

9.2人工神经网络模型 139

9.2.1感知器 139

9.2.2带隐层的人工神经网络 140

9.3前馈神经网络 141

9.3.1训练神经网络 141

9.3.2后向传播如何工作 145

9.3.3后向传播算法 148

9.4有关神经网络研究中应该关注的几个问题 149

9.4.1关于对神经网络的理解问题 149

9.4.2关于神经网络应用中数据准备的问题 150

9.4.3影响神经网络模型性能的部分因素 150

9.4.4学习神经网络,需要强调以下几个问题 151

习题 151

讨论题 151

第10章 决策树算法 152

10.1决策树分类概述 152

10.1.1决策树分类步骤 152

10.1.2决策树分类举例 153

10.2 ID3算法 158

10.2.1信息论基本原理 158

10.2.2 ID3算法的基本思想与实例 161

10.2.3 ID3算法应用中应该关注的几个问题 164

习题 165

讨论题 166

第11章 聚类分析 167

11.1聚类分析概述 167

11.1.1聚类分析中的数据类型 167

11.1.2聚类分析中相异度(相似性、差异度)测度方法 168

11.2聚类分析方法 174

11.2.1划分聚类方法 174

11.2.2基于密度的聚类方法 181

11.2.3聚类分析在数据挖掘应用中有待进一步研究的问题 185

习题 187

讨论题 188

第四篇 实验与工具 191

第12章 数据仓库实验与工具应用 191

第13章 神经网络建模实验与工具应用 225

第14章 决策树与关联分析实验与工具应用 236

参考文献 263