《数据仓库与数据挖掘技术》PDF下载

  • 购买积分:10 如何计算积分?
  • 作  者:张兴会等编著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2011
  • ISBN:9787302247012
  • 页数:213 页
图书介绍:本书系统地介绍了数据仓库、联机事务分析处理以及数据挖掘的相关知识,分别介绍了数据仓库的体系结构、设计步骤;联机事务分析处理及应用,数据预处理的过程以及方法等内容。

第1章 数据挖掘和数据仓库概述 1

1.1数据挖掘引论 1

1.1.1数据挖掘的由来 1

1.1.2数据挖掘的定义 2

1.1.3数据挖掘的功能 3

1.1.4数据挖掘的常用方法 4

1.2数据仓库引论 5

1.2.1数据仓库的产生与发展 5

1.2.2数据仓库的定义 6

1.2.3数据仓库与数据挖掘的联系与区别 6

1.3数据挖掘的应用 7

1.3.1数据挖掘的应用领域 7

1.3.2数据挖掘案例 9

1.4常用数据挖掘工具 12

1.4.1数据挖掘工具的种类 13

1.4.2评价数据挖掘工具优劣的指标 14

1.4.3常用数据挖掘工具 14

小结 18

习题1 18

第2章 数据仓库 20

2.1数据仓库的基本概念 20

2.2数据仓库的体系结构 25

2.2.1元数据 26

2.2.2粒度的概念 28

2.2.3分割问题 29

2.2.4数据仓库中的数据组织形式 30

2.3数据仓库的数据模型 31

2.3.1概念数据模型 32

2.3.2逻辑数据模 32

2.3.3物理数据模型 33

2.3.4高层数据模型、中间层数据模型和低层数据模型 33

2.4数据仓库设计步骤 34

2.4.1概念模型设计 34

2.4.2技术准备工作 36

2.4.3逻辑模型设计 36

2.4.4物理模型设计 38

2.4.5数据仓库的生成 38

2.4.6数据仓库的使用和维护 39

2.5利用SQL Server 2005构建数据仓库 41

小结 50

习题2 50

第3章 联机分析处理技术 51

3.1 OLAP概述 51

3.1.1 OLAP的由来 51

3.1.2 OLAP的一些基本概念 51

3.1.3 OLAP的定义与特征 52

3.2 OLAP中的多维分析操作 52

3.2.1钻取 53

3.2.2切片和切块 53

3.2.3旋转 53

3.3 OLAP的基本数据模型 55

3.3.1多维联机分析处理 55

3.3.2关系联机分析处理 56

3.3.3 MOLAP和ROLAP的比较 57

3.3.4混合型联机分析处理 58

3.4 OLAP的衡量标准 58

3.5基于SQL Server 2005的OLAP实现 60

小结 72

习题3 72

第4章 数据预处理 73

4.1数据预处理概述 73

4.1.1原始数据中存在的问题 73

4.1.2数据预处理的方法和功能 74

4.2数据清洗 74

4.2.1属性选择与处理 74

4.2.2空缺值处理 75

4.2.3噪声数据处理 76

4.2.4不平衡数据的处理 79

4.3数据集成和变换 80

4.3.1数据集成 80

4.3.2数据变换 81

4.4数据归约 84

4.4.1数据归约的方法 84

4.4.2数据立方体聚集 84

4.4.3维归约 84

4.4.4数据压缩 86

4.4.5数值归约 86

4.4.6离散化与概念分层生成 89

小结 92

习题4 93

第5章关联规则方法 94

5.1关联规则的概念和分类 94

5.1.1关联规则的概念 94

5.1.2关联规则的分类 95

5.2 Apriori算法 96

5.2.1产生频繁项集 96

5.2.2产生频繁项集的实例 97

5.2.3从频繁项集产生关联规则 99

5.3 FP-Growth算法 100

5.3.1 FP-Growth算法计算过程 100

5.3.2 FP-Growth算法示例 101

5.4利用SQL Server 2005进行关联规则挖掘 102

小结 119

习题5 120

第6章 决策树方法 121

6.1信息论的基本原理 121

6.1.1信息论原理 121

6.1.2互信息的计算 122

6.2常用决策树算法 124

6.2.1 ID3算法 124

6.2.2 C4.5算法 127

6.3决策树剪枝 130

6.3.1先剪枝 130

6.3.2后剪枝 130

6.4由决策树提取分类规则 130

6.4.1获得简单规则 131

6.4.2精简规则属性 131

6.5利用SQL Server 2005进行决策树挖掘 132

6.5.1数据准备 132

6.5.2挖掘模型设置 132

6.5.3挖掘流程 133

6.5.4挖掘结果分析 135

6.5.5挖掘性能分析 138

小结 139

习题6 139

第7章 统计学习方法 140

7.1朴素贝叶斯分类 140

7.1.1贝叶斯定理 140

7.1.2朴素贝叶斯分类 141

7.2贝叶斯信念网络 143

7.2.1贝叶斯信念网络 143

7.2.2贝叶斯网络的特点 143

7.2.3贝叶斯网络的应用 144

7.3 EM算法 144

7.3.1估计k个高斯分布的均值 144

7.3.2 EM算法的一般表述 146

7.4回归分析 147

7.4.1一元线性回归 147

7.4.2多元线性回归 148

7.4.3非线性回归 149

7.5利用SQL Server 2005进行线性回归分析 150

小结 155

习题7 155

第8章 人工神经网络方法 156

8.1人工神经网络的基本概念 156

8.1.1人工神经元原理 156

8.1.2人工神经网络拓扑结构 158

8.1.3人工神经网络学习算法 158

8.1.4人工神经网络泛化 160

8.2误差反向传播(BP)神经网络 160

8.2.1 BP神经网络的拓扑结构 160

8.2.2 BP神经网络学习算法 161

8.2.3 BP神经网络设计 163

8.3自组织特征映射(SOFM)神经网络 163

8.3.1 SOFM神经网络的拓扑结构 163

8.3.2 SOFM神经网络聚类的基本算法 164

8.3.3 SOFM神经网络学习算法分析 165

8.4 Elman神经网络 165

8.4.1 Elman神经网络的拓扑结构 165

8.4.2 Elman神经网络权值计算 166

8.5 Hopfield神经网络 166

8.5.1 Hopfield神经网络的拓扑结构 167

8.5.2 Hopfield神经网络学习算法概述 167

8.5.3离散Hopfield神经网络 167

8.5.4连续Hopfield神经网络 168

8.6利用SQL Server 2005神经网络进行数据挖掘 169

8.6.1数据准备 169

8.6.2挖掘流程 170

小结 174

习题8 174

第9章 聚类分析 175

9.1聚类概述 175

9.1.1聚类简介 175

9.1.2聚类的定义 175

9.1.3聚类的要求 175

9.2聚类分析中的相异度计算 176

9.2.1聚类算法中的数据结构 176

9.2.2区间标度变量及其相异度计算 177

9.2.3二元变量及其相异度计算 178

9.2.4标称型变量及其相异度计算 179

9.2.5序数型变量及其相异度计算 180

9.2.6比例标度型变量及其相异度计算 180

9.2.7混合类型变量的相异度计算 180

9.3基于划分的聚类方法 181

9.3.1 k-平均算法 181

9.3.2 k-中心点算法 182

9.4基于层次的聚类方法 183

9.5谱聚类方法 184

9.5.1谱聚类的步骤 184

9.5.2谱聚类的优点 185

9.5.3谱聚类实例 185

9.6利用SQL Server 2005进行聚类分析 186

9.6.1挖掘流程 186

9.6.2结果分析 188

小结 191

习题9 192

第10章 粗糙集方法 193

10.1粗糙集的基本概念 193

10.1.1等价关系与等价类 193

10.1.2信息表与决策表 194

10.1.3下近似与上近似 195

10.2基于粗糙集的属性约简 196

10.2.1属性约简的有关概念 196

10.2.2基于粗糙集的几种属性约简算法 198

10.3基于粗糙集的决策规则约简 199

10.3.1决策规则的定义 199

10.3.2决策规则的约简 200

10.4粗糙集的优缺点 201

10.4.1粗糙集的优点 201

10.4.2粗糙集的缺点 201

小结 201

习题10 202

第11章 复杂结构数据挖掘 203

11.1文本数据挖掘 203

11.1.1文本数据的特点 203

11.1.2文本挖掘的定义 203

11.1.3文本挖掘的主要任务 204

11.1.4文本挖掘的一般过程 204

11.1.5文本挖掘的应用 207

11.2 Web数据挖掘 207

11.2.1 Web数据的特点 208

11.2.2 Web挖掘的定义 208

11.2.3 Web挖掘分类 208

11.2.4 Web挖掘过程 209

11.2.5 Web数据挖掘的应用 209

11.3空间数据挖掘 210

11.3.1空间数据的复杂性特征 210

11.3.2空间数据挖掘的定义 210

11.3.3空间数据挖掘知识的类型 211

11.3.4空间数据挖掘的用途 211

11.4多媒体数据挖掘 211

11.4.1多媒体数据挖掘的概念 211

11.4.2多媒体挖掘的分类 211

小结 212

习题11 212

参考文献 213