第一章 概述 3
第一节 数据挖掘与知识发现的基本概念 3
一、数据挖掘的产生 3
基础篇 3
二、什么是数据挖掘和知识发现 4
三、数据挖掘的知识表示 6
第二节 知识发现和数据挖掘的步骤、算法与工具 8
一、知识发现和数据挖掘的基本步骤 8
二、知识发现和数据挖掘的算法 9
三、数据挖掘的工具 10
第三节 数据挖掘系统的体系结构 11
四、模式评估模块 12
一、数据挖掘和知识发现在科学研究中的应用 12
五、知识输出模块 12
第四节 数据挖掘和知识发现的应用 12
二、挖掘前处理模块 12
一、数据库管理模块 12
三、挖掘操作模块 12
二、数据挖掘和知识发现在商业上的应用 13
三、Web挖掘 13
第二章 数据挖掘的对象 15
一、关系型数据库的定义 16
二、关系组成与性质 16
第一节 关系型数据库 16
三、关系型数据库的数据挖掘 17
第二节 数据仓库 18
一、数据仓库的定义和结构 18
二、数据仓库的特征 19
三、多维数据模型 20
四、数据仓库的数据挖掘 23
第三节 文本数据库 23
一、空间数据库 24
第四节 复杂类型数据库 24
四、文本分类 24
三、文本聚类 24
二、特征提取 24
一、语种识别 24
二、Web数据库 25
三、时序数据库 25
第三章 数据挖掘的步骤 27
第一节 跨行业数据挖掘过程标准 27
一、产生背景 27
二、CRISP-DM过程模型 28
三、数据挖掘工具 29
第二节 业务理解 29
一、确定商业目标 29
二、状况评估 30
三、确定数据挖掘目标 31
四、建立项目计划 31
第三节 数据准备 32
一、理解数据 32
二、数据选择 34
三、数据清洗 35
四、数据转换 36
五、数据集成 37
六、数据归约 38
第四节 模型建立和评估 39
一、模型的种类 39
二、模型的精确度 40
三、模型评估 40
第四章 关联规则与关联分析 47
核心篇 47
第一节 关联规则基本概念和关联规则挖掘分类 48
一、关联规则的基本概念 48
二、关联规则挖掘的基本过程与分类 49
第二节 关联分析的原理 50
一、单维布尔关联规则挖掘 50
二、多层关联规则挖掘 52
一、关联分析的应用 53
三、多维关联规则挖掘 53
第三节 关联分析的应用和实例 53
二、关联分析的应用实例 54
第五章 聚类分析 56
第一节 聚类分析概述 56
一、聚类分析的定义 56
二、聚类分析的应用 56
第二节 聚类分析中的数据结构和数据类型 57
一、数据结构 57
二、数据类型 57
第三节 聚类分析方法 60
一、基于划分的聚类方法 60
二、基于层次的聚类方法 62
三、基于密度的方法 64
四、基于网格的方法 65
五、基于模型的方法 66
第四节 孤立点(异常数据)分析 67
第五节 聚类分析的应用和实例 68
第六章 决策树 70
第一节 决策树的概念和原理 70
一、决策树的概念 70
二、决策树的原理 70
第二节 ID3算法和树剪枝 72
一、ID3算法 72
二、树枝修剪 74
第三节 决策树的应用 75
一、分类规则的获取 75
二、决策树医学领域中应用 75
第四节 决策树的可扩展性和优缺点 76
一、决策树的可扩展性 76
二、决策树的优缺点 76
一、概念描述的定义 77
二、概念描述的方法 77
第七章 内容概括相关技术 77
第一节 概念描述 77
第二节 信息抽取 83
一、信息抽取概述 83
二、信息抽取的发展历史 83
三、信息抽取系统的体系结构 86
四、信息抽取中的关键技术 87
五、展望 89
一、人工神经网络的概念 90
二、人工神经网络的研究历史 90
第八章 人工神经网络 90
第一节 人工神经网络概述 90
三、人工神经网络的属性 91
第二节 神经元的结构、组成及基本模型 92
一、神经元的结构 92
二、人工神经元的组成 92
三、基本神经元模型 92
一、人工神经网络的结构 93
第三节 人工神经网络的结构、工作原理及模型 93
二、人工神经网络的工作原理 94
三、神经网络的学习方法 94
四、神经网络模型 95
第四节 人工神经网络在医学中的应用 96
一、人工神经网络应用于临床诊断 96
二、人工神经网络应用于预后研究 97
三、人工神经网络应用于临床决策分析 97
四、人工神经网络应用于医学信号分析处理 98
第九章 遗传算法 99
第一节 遗传算法概述 99
一、遗传算法的产生和发展 99
二、遗传算法的基本思想和原理 100
三、遗传算法的特点 101
第二节 遗传算法的步骤与实现 102
一、遗传算法的处理步骤 102
二、遗传算法的实现技术 102
三、遗传算法的理论基础 103
第三节 遗传算法的应用 105
第十章 粗糙集理论及其应用 107
第一节 粗糙集理论 107
一、粗糙集理论的产生和发展 107
二、知识的概念 108
三、不可区分关系和基本集 108
四、近似空间概念 108
五、集合的下近似、上近似及边界区 109
六、新型隶属关系 111
第二节 决策表 111
一、信息系统概念 112
二、决策表的约简 112
三、属性约简 113
四、决策表离散化 114
五、决策表规则获取及简化 114
一、粗糙集在医学数据挖掘中的应用 115
二、基于粗糙集理论的数据挖掘系统 115
第三节 粗糙集理论应用 115
第四节 实例应用 116
一、等价集下近似和依赖度的计算 117
二、条件属性C中各属性重要度的计算 117
三、简化决策表 118
四、约简后的决策表等价集计算 118
五、决策表获取规则 118
七、最后决策表获取的规则 119
六、规则简化 119
应用篇 123
第十一章 数据挖掘在临床领域中的应用 123
第一节 临床数据挖掘的特点 123
一、临床数据的特点 123
二、临床数据挖掘的过程 126
第二节 数据挖掘临床应用领域 126
一、疾病诊断与治疗 126
二、医疗管理 131
一、数据挖掘目的 132
三、医疗资源利用评价 132
第三节 临床数据挖掘应用实例 132
二、样本 133
三、数据挖掘方法 133
四、数据预处理 134
五、结果 134
六、结论 135
第十二章 数据挖掘在分子生物学领域中的应用 136
第一节 分子生物学数据挖掘概述 136
一、分子生物学数据的大量涌现 136
二、分子生物学领域数据挖掘研究的提出 136
三、分子生物学数据与信息的特点 137
第二节 数据挖掘在分子生物学中的应用领域和工具 138
一、数据挖掘在分子生物学中的应用领域 138
二、分子生物信息挖掘工具 139
第三节 分子生物学数据挖掘实例 139
三、结果 140
二、方法 140
一、数据及来源 140
第十三章 数据挖掘在预防医学领域中的应用 143
第一节 预防医学数据挖掘的意义 143
一、预防医学研究重要性 143
二、预防医学数据挖掘的提出 143
三、预防医学数据挖掘的发展 144
第二节 预防医学数据挖掘的特点 144
一、预防医学的行业背景 144
二、预防医学数据挖掘的特点 145
第三节 预防医学数据挖掘实例 146
一、背景 147
二、方法 147
三、结果 147
第十四章 时间序列数据挖掘及其在医院管理中的应用 149
第一节 时间序列的趋势分析 149
二、时间序列的构成因素 150
一、时间序列及时间序列数据库 150
三、时间序列的分析模型构成 151
四、时间序列预测方法 152
第二节 时间序列的相似性搜索 153
一、时间序列相似性搜索概述 154
二、基于序列变换的相似性搜索 155
三、基于序列外形特征的相似性搜索 156
四、基于小波变换的相似性搜索 157
第三节 时间序列模式和周期模式挖掘 157
一、时间序列模式挖掘 157
二、时间序列周期模式挖掘 158
第四节 时间序列数据挖掘在医院管理中的应用实例 158
一、数据挖掘目的 159
二、数据挖掘方法 160
四、数据预处理 161
五、实验结果 161
三、样本资料 161
六、讨论 164
第十五章 文本挖掘及其在生物医学领域中的应用 166
第一节 文本挖掘概述 166
一、文本挖掘的定义 166
二、文本挖掘的作用 166
三、文本挖掘的过程 167
一、文本预处理 168
第二节 文本挖掘的关键技术 168
二、文本分类 171
三、文本聚类 172
四、文本自动摘要 173
第三节 文本挖掘在生物医学领域中的应用 177
一、概念识别 178
二、发现关系 181
三、利用文本分析的方法优化生物学算法 183
第一节 Web挖掘概述 185
一、Web信息的特点 185
第十六章 Web挖掘 185
二、Web挖掘的含义 186
三、Web挖掘的类型 187
四、Web挖掘的意义 188
第二节 Web内容挖掘 189
一、Web内容挖掘及其类型 189
二、Web文本挖掘 190
三、Web多媒体数据挖掘 192
一、Web的结构 193
第三节 Web结构挖掘 193
二、Web结构挖掘的含义 194
三、Web结构挖掘的算法 194
四、Web结构挖掘的应用 196
第四节 Web使用挖掘 197
一、Web使用挖掘的特点 197
二、Web使用挖掘的意义 197
三、Web使用挖掘的数据来源 199
四、Web使用挖掘的基本过程 200
五、Web使用挖掘的应用 203
第十七章 数据挖掘工具概述 205
第一节 数据挖掘工具的分类 205
一、按技术层面分类 206
二、按应用角度分类 206
三、按所处理的数据类型分类 207
四、按所完成的任务类型分类 208
一、数据挖掘工具的评估指标 209
第二节 数据挖掘工具的选择 209
二、企业自身因素对数据挖掘工具选择的影响 211
第三节 几种主流数据挖掘工具 212
一、Clementine 212
二、Enterprise Miner 214
三、Insightful Miner 215
四、Intelligent Miner 215
五、Arrowsmith 216
参考文献 219