数据挖掘原理与算法PDF电子书下载
- 电子书积分:12 积分如何计算积分?
- 作 者:邵峰晶,于忠清编著
- 出 版 社:北京:中国水利水电出版社
- 出版年份:2003
- ISBN:7508416538
- 页数:322 页
1.1 数据挖掘的社会需求 1
第1章 导论 1
1.2 什么是数据挖掘 2
1.3 数据挖掘的数据来源 4
1.4 数据挖掘的分类 5
1.4.1 分类分析(ClassificationAnalysis) 6
1.4.2 聚类分析(ClusteringAnalysis) 7
1.4.3 关联分析(AssociationAnalysis) 8
1.4.4 序列分析及时间序列(SequenceAnalysisandTimeSequence) 10
1.4.5 孤立点分析(OutlierAnalysis) 10
1.5 数据挖掘的体系结构与运行过程 11
1.5.1 数据挖掘的体系结构 11
1.4.6 其他分析 11
1.5.2 数据挖掘的步骤 13
1.5.3 实例 15
1.6 数据挖掘与其他相关技术 16
1.6.1 数据挖掘与数据库中的知识发现 16
1.6.2 数据挖掘与OLAP 17
1.6.3 数据挖掘与人工智能和机器学习 18
1.6.4 数据挖掘与统计学 19
1.6.5 数据挖掘与客户关系管理 20
1.6.6 软硬件发展对数据挖掘的影响 21
1.6.7 XML与面向Web的数据挖掘技术 22
1.7 数据挖掘工具的评价标准 26
1.8 数据挖掘的应用 27
1.9 数据挖掘的要求及挑战 29
第2章 数据仓库技术 31
2.1 数据仓库概述 31
2.1.1 数据仓库的定义 31
2.1.2 数据仓库查询系统 31
2.1.3 OLTP与OLAP 32
2.1.4 数据仓库与数据集市 33
2.1.5 数据仓库系统的结构 34
2.1.6 数据仓库中的元数据管理 35
2.2 联机分析处理(OLAP) 38
2.2.1 OLAP的功能及体系结构 38
2.2.2 OLAP数据组织模型 39
2.2.3 数据仓库的建模 42
2.2.4 OLAP的Web结构 44
2.2.5 OLAP数据查询机制 45
2.3 多维数据模型 45
2.3.1 数据模型 46
2.3.2 代数操作 49
2.3.3 数据集合维护操作 54
2.4 海威数据仓库系统简介 55
2.4.1 HighwayDecisionCenterV1.0系统结构 55
2.4.2 HighwayDecisionCenterV2.0系统结构 58
2.4.3 海威数据仓库网络结构 59
2.5 数据仓库应用举例 60
2.5.1 信用卡资信分析 62
2.5.2 贷款分析 64
3.1 概论 68
第3章 数据挖掘中的数据预处理 68
3.1.1 预处理的基本功能 69
3.1.2 预处理的主要方法 70
3.2 数字属性的离散化与特征选择 73
3.2.1 Chi2算法简介 73
3.2.2 举例 75
3.2.3 讨论 76
3.3 数据的采样 77
3.3.1 数据挖掘不同领域中的采样 78
3.3.2 数据挖掘中的采样方法 79
3.3.3 静态与动态采样 79
3.4 概念分层 81
3.4.1 数据库中的面向属性的归纳 81
3.4.2 概念分层的动态提炼 85
3.4.3 针对数字属性的概念分层的自动产生 88
第4章 关联规则 91
4.1 关联规则挖掘的基本概念 91
4.2 关联规则的发现算法 93
4.2.1 发现大的项集 93
4.2.2 算法Apriori 94
4.2.3 算法AprioriTid 96
4.2.4 算法AprioriHybrid 97
4.2.5 生成规则 98
4.3 多值属性关联规则 99
4.3.1 基本概念 99
4.3.3 确定多值属性划分的聚类算法CP 100
4.3.2 MAQA算法 100
4.3.4 合并数量属性的相邻值 102
4.4 多层关联规则挖掘 103
4.4.1 概念层次(ConceptualHierarchies) 103
4.4.2 同层(SameHierarchy)关联规则挖掘 104
4.4.3 混合层(MixedHierarchies)关联规则挖掘 109
4.4.4 交叉层(CrossHierarchies)关联规则挖掘 111
4.5 约束性关联规则发现方法及算法 115
4.5.1 问题陈述 115
4.5.2 过滤事务数据库 115
4.5.3 算法Separate 117
4.5.4 扩展的约束条件 120
4.6 关联规则的增量式更新算法 121
4.6.1 IUA算法 122
4.6.2 PIUA算法 125
第5章 数据分类 126
5.1 决策树基本算法 128
5.1.1 决策树生成算法 128
5.1.2 决策树的修剪 130
5.2 决策树ID3 132
5.2.1 基本概念 132
5.2.2 定义 134
5.2.3 ID3算法 135
5.3 决策树学习算法C4.5 136
5.3.1 使用增益比例 136
5.3.2 处理未知值的训练样本 137
5.3.3 有连续值的属性 138
5.3.4 规则的产生 138
5.3.5 交叉验证(CrossValidation) 138
5.3.6 C4.5 的工作流程 139
5.4 分类与回归树(CART) 140
5.4.1 基本定义 141
5.4.2 构建树算法 143
5.4.3 修剪(Pruning) 145
5.4.4 决策树评估(Estimation) 148
5.4.5 内存管理及时间复杂性分析 151
5.5 SLIQ:一种快速可扩展的分类算法 152
5.5.2 SLIQ分类器 153
5.5.1 扩展性问题 153
5.5.3 数据结构及算法 158
5.6 SPRINT:数据挖掘中一种可扩展的并行分类器 162
5.6.1 串行算法 163
5.6.2 分类并行化 167
第6章 多维访问与数据可视化 170
6.1 多维访问方法 170
6.1.1 引言 170
6.1.2 空间数据的结构 171
6.1.3 基本的数据结构 175
6.2 R-树及R*树:空间搜索的动态索引树 178
6.2.1 R-树的索引结构 178
6.2.2 搜索及更新 180
6.2.3 ChooseSubtree算法 184
6.2.4 R*树的分裂 185
6.2.5 强迫重插入 186
6.2.6 R*树:一个有效的点存取方法 187
6.3 多维数据的平行坐标表示法 188
6.4 圆形分段及基于相似性的排列 191
6.4.1 圆形分段:一种大数据量多维数据可视化技术 191
6.4.2 基于相似性原理的多维数据排列的可视化技术 193
第7章 聚类分析 197
7.1 基础知识 201
7.1.1 距离与相似系数 203
7.1.2 聚类的特征与聚类间的距离 205
7.2 分层聚类法 206
7.2.1 最短距离法 207
7.2.2 最长距离法 209
7.2.3 中间距离法 210
7.2.4 其他方法 213
7.3 分割聚类算法CLARANS 216
7.3.1 PAM算法 216
7.3.2 CLARA算法 217
7.3.3 基于随机搜索的聚类算法CLARANS 218
7.4 聚类算法k-means及k-modes 219
7.4.1 k-means算法 219
7.4.2 改进的k-means算法 221
7.4.3 大型离散数据集的快速聚类算法 224
7.5 高维度数据的自动子空间聚类算法CLIQUE 228
7.5.1 问题描述 229
7.5.2 算法 231
7.6 OPTICS:识别聚类结构的对象排序 236
7.6.1 根据聚类结构对数据库排序 237
7.6.2 识别聚类结构 243
7.6.3 自动化技术 248
7.7 利用分层的平衡迭代归约及聚类 253
7.7.1 聚类特征(ClusteringFeature)及CF-树 254
7.7.2 CF-树重建算法 258
7.7.3 BIRCH聚类算法 260
7.7.4 阶段1的算法 260
7.7.5 阶段2的算法 262
7.7.6 阶段3的算法 263
7.7.7 阶段4的算法 264
7.7.8 内存管理及时间复杂性分析 265
7.8 大型数据集中孤立点挖掘的高效算法 266
7.8.1 问题定义 266
7.8.2 嵌入式循环及基于索引的算法 268
7.8.3 基于分区的算法 271
第8章 序列模式与时间序列 277
8.1 序列模式的数据挖掘 277
8.1.1 基本定义 277
8.1.2 序列模式的发现 279
8.1.3 序列阶段 281
8.2 时序数据库中相似序列的挖掘 288
8.2.1 基于ARMA模型的序列匹配方法 289
8.2.2 基于离散傅里叶变换的时间序列相似性快速查找 291
8.2.3 基于规范变换的查找方法 294
8.3 在数据库中发现具有时态约束的关联规则 298
8.3.1 问题描述 298
8.3.2 带时态约束的关联规则发现算法 299
第9章 开放式的数据挖掘系统 303
9.1 OLEDBForDataMining 303
9.1.1 OLEDBForDataMining简介 303
9.1.2 OLEDBForDataMining编程基础 304
9.2 可预测模型描述语言(PMML) 308
9.2.1 简介 308
9.2.2 一个简单的PMML例子 309
9.3.2 产品目标 310
9.3.1 背景 310
9.3 产品简介 310
9.4 系统结构 311
9.4.1 用于OLAP系统的数据挖掘应用系统结构 311
9.4.2 基于B/S结构的应用框架 313
9.4.3 逻辑模块结构设计 313
9.5 Web服务技术 316
9.6 输入和输出 317
9.6.1 系统输入:OLTP、OLAP及其他 317
9.6.2 利用可视化技术构造可理解的知识展现 317
9.7 应用模式 318
9.8 现状与前景 319
参考文献 320
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《《原节子》日本国民女演员传记 比电影还传奇的一生 折射时代变迁》徐辰 2018
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《Access数据库系统设计与应用教程》李勇帆,廖瑞华主编 2019
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《流体力学》张扬军,彭杰,诸葛伟林编著 2019
- 《中国当代乡土小说文库 本乡本土》(中国)刘玉堂 2019
- 《异质性条件下技术创新最优市场结构研究 以中国高技术产业为例》千慧雄 2019
- 《中国铁路人 第三届现实主义网络文学征文大赛一等奖》恒传录著 2019
- 《莼江曲谱 2 中国昆曲博物馆藏稀见昆剧手抄曲谱汇编之一》郭腊梅主编;孙伊婷副主编;孙文明,孙伊婷编委;中国昆曲博物馆编 2018
- 《中国制造业绿色供应链发展研究报告》中国电子信息产业发展研究院 2019
- 《中央财政支持提升专业服务产业发展能力项目水利工程专业课程建设成果 设施农业工程技术》赵英编 2018
- 《中国陈设艺术史》赵囡囡著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《《走近科学》精选丛书 中国UFO悬案调查》郭之文 2019
- 《清至民国中国西北戏剧经典唱段汇辑 第8卷》孔令纪 2018