第一章 概论 1
1.1 什么是数据挖掘 1
1.1.1 数据、信息和知识 1
1.1.2 数据挖掘的定义 2
1.2 数据挖掘的应用及方法 3
1.2.1 应用 3
1.2.2 方法 5
1.3 生物医学数据挖掘的特殊性 6
1.3.1 医学数据的特殊性 6
1.3.2 伦理、法律和社会等方面对私密敏感的问题 8
1.3.3 医学的特殊性质 9
1.4 数据挖掘的评价 9
1.4.1 样本的组织 9
1.4.2 有指导学习的评价 10
1.4.3 无指导学习的评价 13
1.5 数据挖掘的过程 13
第二章 医学数据采集与准备 16
2.1 数据的采集与组织 16
2.1.1 数据的采集、存储和管理 16
2.1.2 数据的组织 16
2.2 数据管理及数据管理系统的基本功能 18
2.2.1 数据管理 18
2.2.2 Excel的基本功能 18
2.2.3 关系数据库管理系统的基本功能 21
2.3 数据预处理 25
2.3.1 数据预处理的目的 25
2.3.2 数据的分布特性 26
2.3.3 数据清洗 28
2.3.4 数据整合 30
2.3.5 数据变换 31
2.3.6 数据精简 32
第三章 回归分析 35
3.1 回归分析的功能 35
3.2 常用的回归分析方法 36
3.2.1 线性回归 36
3.2.2 Logistic回归 38
3.2.3 人工神经网络 40
3.2.4 回归树 41
3.3 回归分析的应用——子宫颈癌患者生存率的预测 44
3.3.1 研究目标分析 44
3.3.2 数据采集及预处理 45
3.3.3 数据挖掘与分析 45
3.3.4 性能评价与比较 48
3.4 回归分析的应用——乳腺癌患者的预后分析 48
3.4.1 研究目标分析 48
3.4.2 数据采集及预处理 49
3.4.3 数据挖掘与分析 50
3.4.4 性能评价与比较 52
第四章 分类 54
4.1 分类的功能 54
4.1.1 分类的定义和功能 54
4.1.2 分类的一般方法 55
4.2 分类的方法 57
4.2.1 分类方法的关键技术 57
4.2.2 特征属性的选择 57
4.2.3 分类器的选择 61
4.3 分类的应用——冠心病预测 67
4.3.1 研究目标 67
4.3.2 数据采集与处理 67
4.3.3 数据挖掘与分析 68
4.4 分类的应用——失语症分类 69
4.4.1 研究目标 69
4.4.2 数据采集与处理 69
4.4.3 数据挖掘与分析 69
第五章 聚类分析 71
5.1 聚类分析的功能 71
5.1.1 聚类分析的定义和作用 71
5.1.2 聚类分析中的相似性度量 71
5.2 聚类分析的方法 78
5.2.1 聚类分析方法 78
5.2.2 高维特征空间中的聚类 79
5.3 聚类分析的应用——住院患者人群分类 80
5.3.1 研究目标 80
5.3.2 数据采集与处理 80
5.3.3 数据挖掘与分析 81
第六章 关联规则 83
6.1 关联规则的功能 83
6.1.1 关联规则的定义 83
6.1.2 关联规则的质量和重要性 84
6.2 关联规则的分析方法 88
6.2.1 关联规则分析的基本方法 88
6.2.2 剪枝和合并 89
6.3 关联规则的应用——糖尿病患者的筛查 90
6.3.1 研究目的分析 90
6.3.2 数据采集及预处理 91
6.3.3 数据挖掘与分析 91
6.4 关联规则的应用——院内感染监测控制 92
6.4.1 研究目的分析 92
6.4.2 数据采集及预处理 93
6.4.3 数据挖掘与分析 94
第七章 时间序列分析 96
7.1 时间序列分析的功能 96
7.1.1 什么是时间序列数据 96
7.1.2 时间序列分析的功能 96
7.2 时间序列分析的方法 97
7.2.1 时间序列数据的精简和变换 97
7.2.2 时间序列数据的趋势分析 98
7.2.3 时间序列数据中的相似性 99
7.3 时间序列分析的应用——Ⅰ型糖尿病患者血糖水平变化规律 102
7.3.1 研究目标分析 102
7.3.2 数据的采集、处理及挖掘 103
第八章 序列分析 105
8.1 序列分析的功能 105
8.1.1 序列数据的基本概念 105
8.1.2 序列数据分析的功能 106
8.2 生物医学中的序列分析方法 107
8.2.1 生物医学中的序列数据 107
8.2.2 生物医学序列数据的比对 109
8.3 序列分析的应用——妊娠期药物副作用研究 111
8.3.1 研究目标分析 111
8.3.2 数据采集及预处理 112
8.3.3 数据挖掘与分析 112
参考文献 116