数据挖掘技术PDF电子书下载
- 电子书积分:9 积分如何计算积分?
- 作 者:朱玉全,杨鹤标,孙蕾编著
- 出 版 社:南京:东南大学出版社
- 出版年份:2006
- ISBN:7564105941
- 页数:193 页
1 绪论 1
1.1 数据管理 1
1.1.1 人工管理阶段 1
1.1.2 文件系统阶段 1
1.1.3 数据库系统阶段 2
1.2 数据仓库和联机分析处理 2
1.3 数据挖掘和知识发现 4
1.3.1 数据挖掘的发展 4
1.3.4 数据挖掘过程 5
1.3.3 数据挖掘的目的 5
1.3.2 数据挖掘的对象 5
1.3.5 数据挖掘的分类 6
1.3.6 数据挖掘方法和技术 7
1.3.7 数据挖掘技术的难点 9
1.4 数据挖掘工具 10
1.4.1 数据挖掘工具的选择 11
1.4.2 数据挖掘原型系统 11
1.4.3 主要商业产品介绍 11
1.5 本章小结 12
2.1 数据仓库概念 14
2.1.1 数据仓库的产生 14
2 数据仓库和联机分析处理 14
2.1.2 数据仓库的定义 15
2.2 数据仓库中的数据组织 18
2.2.1 数据仓库的数据组织结构 18
2.2.2 数据仓库的系统结构 18
2.3 数据仓库的基本数据模型 19
2.3.1 星型模型 20
2.3.2 雪花模型 20
2.4 数据仓库的实现策略 21
2.6 联机分析处理 22
2.6.1 基本概念 22
2.5 数据仓库与联机分析处理 22
2.6.2 多维分析的基本分析动作 23
2.6.3 OLAP结构 25
2.6.4 OLTP和OLAP的比较 25
2.7 数据仓库与数据挖掘 26
2.8 本章小结 26
3 关联规则挖掘 27
3.1 基本概念 27
3.2 关联规则的Apriori算法 27
3.2.1 Apriori算法 28
3.2.2 AprioriTid算法 31
3.3 Apriori的改进算法 32
3.2.3 AprioriHybrid算法 32
3.3.2 基于数据分割(Partition)的方法 33
3.3.1 基于散列(Hash)的方法 33
3.3.3 基于采样(Sampling)的方法 34
3.4 基于FP-tree的关联规则挖掘算法FP-growth 34
3.4.1 算法描述 34
3.4.2 示例说明 35
3.5 多层关联规则挖掘 40
3.6 多维关联规则挖掘 41
3.7 基于约束的关联规则挖掘 41
3.8.1 基本概念 42
3.8 数量关联规则挖掘 42
3.8.2 数量关联规则的分类 43
3.8.3 数量关联规则挖掘的一般步骤 44
3.8.4 数值属性离散化问题 46
3.9 最大频繁项目集挖掘 48
3.9.1 最大频繁项目集 49
3.9.2 基于Apriori的最大频繁项目集挖掘算法 49
3.9.3 基于FP-tree的最大频繁项目集挖掘算法 50
3.10 关联规则更新挖掘算法 53
3.10.1 数据集的增量性更新挖掘算法 53
3.10.2 算法参数的相似性更新挖掘算法 57
3.10.3 基于FP-tree的关联规则更新挖掘算法 58
3.10.4 基于FP-tree的最大频繁项目集更新算法 60
3.11 一种新的支持度计算方法 63
3.11.1 基本概念 63
3.11.2 候选频繁项目集的生成 65
3.11.3 项目集支持数计算方法 65
3.12 负关联规则挖掘算法 66
3.12.1 基本概念 67
3.12.2 基于Apriori的负关联规则挖掘算法 68
3.12.3 基于频繁模式树的负关联规则挖掘算法 70
3.13 加权关联规则挖掘算法 71
3.13.1 加权关联规则模型 72
3.13.2 加权关联规则的发现 73
3.14 本章小结 77
4 序列模式挖掘 78
4.1 问题描述 78
4.2 类Apriori(Apriori-based)方法 79
4.3 GSP算法 82
4.4 基于投影的序列模式挖掘算法PrefixSpan 85
4.4.1 基本概念 85
4.4.2 算法描述 86
4.4.3 示例说明 87
4.5 SPADE方法 89
4.5.1 基本理论 89
4.5.2 支持数(度)计算 90
4.5.3 基于前缀分类的格分解 92
4.5.4 频繁序列模式搜索 93
4.5.5 SPADE算法的设计和实现 94
4.6 序列模式增量式更新算法 96
4.6.1 基本概念 96
4.6.2 算法描述 98
4.6.3 示例说明 99
4.7 本章小结 101
5 分类 102
5.1 分类概述 102
5.2 决策树(Decision Tree)方法 103
5.2.1 决策树方法概述 103
5.2.2 决策树方法的理论基础 103
5.2.3 决策树的表示 106
5.2.4 决策树的生成 107
5.3 ID3决策树方法 108
5.3.1 ID3算法的决策属性选择方法 108
5.3.2 ID3算法示例 108
5.4.1 C4.5方法中决策树的构造 111
5.3.3 ID3的特点 111
5.4 C4.5方法 111
5.4.2 处理未知属性值的训练样本 112
5.4.3 连续属性的处理 112
5.4.4 决策树修剪 113
5.4.5 交叉验证 114
5.4.6 规则的抽取 115
5.5 IBLE决策规则树方法 116
5.6 SLIQ:一种快速可扩展的分类算法 117
5.6.1 算法的扩展性 117
5.6.2 SLIQ分类器 118
5.6.3 算法流程 120
5.7 SPRINT:一种可扩展的并行分类器 123
5.8 贝叶斯方法 126
5.8.1 贝叶斯理论 126
5.8.2 朴素贝叶斯分类 128
5.9 本章小结 129
6 聚类分析 130
6.1 什么是聚类分析 130
6.2 距离和相似系数 131
6.2.1 距离 132
6.2.2 相似系数 133
6.3.1 数据准备 135
6.3 聚类分析的过程 135
6.3.2 特征生成 137
6.3.3 聚类分析 137
6.4 聚类分析算法的分类 137
6.4.1 划分法 137
6.4.4 基于网格的方法 138
6.4.5 基于模型的方法 138
6.4.6 基于变换的聚类算法 138
6.4.3 基于密度的方法 138
6.4.2 层次方法 138
6.5 常用的聚类算法 139
6.5.1 划分法 139
6.5.2 层次方法 142
6.5.3 基于密度的方法 150
6.5.4 基于网格的聚类方法 158
6.5.5 基于模型的聚类方法 161
6.5.6 模糊聚类算法FCM 162
6.5.7 聚类算法性能评价 163
6.6 孤立点分析 164
6.7 高维空间聚类问题 167
6.8 本章小结 168
7.1 Web挖掘概述 169
7 Web挖掘 169
7.2 Web挖掘基本流程 170
7.3 Web挖掘分类 171
7.3.1 Web内容挖掘 171
7.3.2 Web结构挖掘 175
7.3.3 Web用法挖掘 178
7.4 Web挖掘的应用前景 182
7.5 本章小结 183
8 基于数据挖掘的医学图像分类 184
8.2 医学图像的特征描述 185
8.1 分类模型的基本框架 185
8.3 医学图像分割及局部组织特征的提取 186
8.3.1 医学图像分割 186
8.3.2 局部组织特征的提取 186
8.4 关联分类规则 188
8.4.1 关联分类规则 188
8.4.2 频繁关联分类规则挖掘算法 189
8.4.3 精确关联分类规则挖掘算法 190
8.5 规则比较与分析 190
8.6 本章小结 191
参考文献 192
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《Access数据库系统设计与应用教程》李勇帆,廖瑞华主编 2019
- 《并行数据挖掘及性能优化》荀亚玲著 2020
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《流体力学》张扬军,彭杰,诸葛伟林编著 2019