前言 1
第1章 绪论 1
1.1 知识 1
1.2 知识发现 2
1.3 知识发现的任务 4
1.3.1 数据总结 4
1.3.2 概念描述 5
1.3.3 分类 5
1.3.6 偏差分析 6
1.3.5 相关性分析 6
1.3.4 聚类 6
1.3.7 建模 7
1.4 知识发现的方法 7
1.4.1 统计方法 7
1.4.2 机器学习 9
1.4.3 神经计算 11
1.4.4 可视化 12
1.5 知识发现的对象 13
1.5.1 数据库 13
1.5.2 文本 14
1.5.4 空间数据 15
1.5.3 Web信息 15
1.5.5 图像和视频数据 16
1.6 知识发现与创新 17
第2章 决策树 21
2.1 归纳学习 21
2.2 决策树学习 21
2.3 CLS学习算法 23
2.4 ID3学习算法 24
2.4.1 信息论简介 24
2.4.2 信息论在决策树学习中的意义及应用 25
2.4.4 ID3算法应用举例 26
2.4.3 ID3算法 26
2.5 决策树的改进算法 28
2.5.1 二叉树判定算法 28
2.5.2 按信息比值进行估计的方法 29
2.5.3 按分类信息估值 29
2.5.4 按划分距离估值的方法 30
2.6 决策树的评价 31
2.7 简化决策树 32
2.7.1 简化决策树的动机 33
2.7.2 决策树过大的原因 33
2.7.3 控制树的大小 34
2.7.4 修改测试属性空间 36
2.7.5 改进测试属性选择方法 38
2.7.6 对数据进行限制 40
2.7.7 改变数据结构 41
2.8 连续型属性离散化 44
2.9 基于偏置变换的决策树学习算法BSDT 45
2.9.1 偏置的形式化 46
2.9.2 表示偏置变换 47
2.9.3 算法描述 48
2.9.4 过程偏置变换 49
2.9.6 经典范例库维护算法TCBM 51
2.9.5 基于偏置变换的决策树学习算法BSDT 51
2.9.7 偏置特征抽取算法 52
2.9.8 改进的决策树生成算法GSD 53
2.9.9 实验结果 55
2.10 归纳学习中的问题 56
第3章 关联规则 57
3.1 关联规则挖掘概述 57
3.1.1 关联规则的意义和度量 57
3.1.2 经典的挖掘算法 59
3.2 广义模糊关联规则的挖掘 61
3.4 任意多表间关联规则的并行挖掘 64
3.3 挖掘关联规则的数组方法 64
3.4.1 问题的形式描述 65
3.4.2 单表内大项集的并行计算 65
3.4.3 任意多表间大项集的生成 67
3.4.4 跨表间关联规则的提取 68
3.5 基于分布式系统的关联规则的挖掘算法 68
3.5.1 候选集的生成 69
3.5.2 候选数据集的局部剪枝 71
3.5.3 候选数据集的全局剪枝 73
3.5.4 合计数轮流检测 75
3.5.5 分布式挖掘关联规则的算法 76
3.6.1 汉语词性标注 78
3.6 词性标注规则的挖掘算法与应用 78
3.6.2 问题的描述 79
3.6.3 挖掘算法 80
3.6.4 试验结果 83
第4章 基于范例的推理 85
4.1 概述 85
4.2 过程模型 86
4.3 范例的表示 88
4.3.1 语义记忆单元 89
4.3.2 记忆网 89
4.4 范例的索引 91
4.5 范例的检索 92
4.6 相似性关系 93
4.6.1 语义相似性 94
4.6.2 结构相似性 94
4.6.3 目标特征 94
4.6.4 个体相似性 95
4.6.5 相似性计算 95
4.7 范例的复用 96
4.8 范例的保存 98
4.9 基于例示的学习 99
4.9.1 基于例示学习的任务 99
4.9.2 IBI算法 100
4.9.3 降低存储要求 102
4.10 范例工程 104
4.11 范例约简算法 106
4.12 中心渔场预报专家系统 109
4.12.1 问题分析与范例表示 109
4.12.2 相似性度量 111
4.12.3 索引与检索 111
4.12.4 基于框架的修正 112
4.12.5 实验结果 114
5.1.2 模糊聚类的一般模型 116
5.1.1 聚类结果的表示 116
5.1 概述 116
第5章 模糊聚类 116
5.2 传递闭包法 117
5.2.1 模糊相似系数的标定 117
5.2.2 传递闭包法 120
5.2.3 动态直接聚类法 120
5.2.4 最大树法 121
5.3 FCMBP聚类法 122
5.3.1 问题背景 122
5.3.2 Fuzzy等价标准型 124
5.3.3 置换等价类与平移等价类的记数公式 128
5.3.4 Xn的结构 129
5.3.5 模糊最优等价阵的存在性 130
5.3.6 最优模糊等价阵的算法步骤 131
5.3.7 基于FCMBP模糊聚类的语音识别 135
5.4 系统聚类法 136
5.5 C-均值聚类法 137
5.6 聚类有效性 140
5.7 聚类方法的比较 141
第6章 粗糙集 143
6.1 概述 143
6.1.2 新型的隶属关系 145
6.1.1 知识的分类观点 145
6.1.3 概念的边界观点 146
6.2 知识的约简 147
6.2.1 一般约简 147
6.2.2 相对约简 147
6.2.3 知识的依赖性 148
6.3 决策逻辑 149
6.3.1 决策表的公式化定义 149
6.3.2 决策逻辑语言 150
6.3.3 决策逻辑语言的语义 151
6.3.4 决策逻辑的推演 152
6.3.6 决策规则和决策算法 153
6.3.5 规范表达形式 153
6.3.7 决策规则中的一致性和不分明性 154
6.4 决策表的约简 154
6.4.1 属性的依赖性 155
6.4.2 一致决策表的约简 155
6.4.3 非一致决策表的约简 160
6.5 粗糙集的扩展模型 163
6.5.1 可变精度粗糙集模型 164
6.5.2 相似模型 165
6.5.3 基于粗糙集的非单调逻辑 165
6.6 粗糙集的实验系统 166
6.5.4 与其他数学工具的结合 166
6.7 粗糙集的展望 168
第7章 贝叶斯网络 169
7.1 概述 169
7.1.1 贝叶斯网络的发展历史 169
7.1.2 贝叶斯方法的基本观点 170
7.1.3 贝叶斯网络在数据挖掘中的应用 170
7.2 贝叶斯概率基础 172
7.2.1 概率论基础 172
7.2.2 贝叶斯概率 174
7.3 贝叶斯学习理论 176
7.3.1 几种常用的先验分布选取方法 177
7.3.2 计算学习机制 179
7.3.3 贝叶斯问题求解 181
7.4 简单贝叶斯学习模型 183
7.4.1 简单贝叶斯学习模型 183
7.4.2 简单贝叶斯模型的提升 185
7.4.3 提升简单贝叶斯分类的计算复杂性 187
7.5 贝叶斯网络的建造 187
7.5.1 贝叶斯网络的结构及建立方法 187
7.5.2 学习贝叶斯网络的概率分布 188
7.5.3 学习贝叶斯网络的网络结构 190
7.6 贝叶斯潜在语义模型 193
7.7 半监督文本挖掘算法 196
7.7.1 网页聚类 196
7.7.2 对含有潜在类别主题词的文档的类别标注 197
7.7.3 基于简单贝叶斯模型学习标注和未标注样本 198
8.1.1 经验风险 203
8.1.2 VC维 203
8.1 统计学习问题 203
第8章 支持向量机 203
8.2 学习过程的一致性 204
8.2.1 学习一致性的经典定义 204
8.2.2 学习理论的重要定理 204
8.2.3 VC熵 205
8.3 结构风险最小归纳原理 206
8.4 支持向量机 208
8.4.1 线性可分 208
8.4.2 线性不可分 209
8.5.2 径向基函数 211
8.5.3 多层感知机 211
8.5.1 多项式核函数 211
8.5 核函数 211
8.5.4 动态核函数 212
8.6 基于分类超曲面的海量数据分类方法 213
8.6.1 Jordan曲线定理 213
8.6.2 SVM直接方法基本思想 214
8.6.3 实现算法 215
8.6.4 实验结果分析 215
第9章 隐马尔科夫模型 219
9.1 马尔科夫过程 219
9.2 隐马尔科夫模型 220
9.3 似然概率和前反向算法 221
9.3.1 前向算法 222
9.3.2 反向算法 222
9.3.3 Viterbi算法 223
9.3.4 计算期望 223
9.4 学习算法 224
9.4.1 EM算法 224
9.4.2 梯度下降 225
9.4.3 Viterbi学习 226
9.5 基于状态驻留时间的分段概率模型 226
9.5.1 SDSPM模型的构成 227
10.1.2 神经网络的学习方法 230
10.1.1 基本的神经网络模型 230
第10章 神经网络 230
10.1 概述 230
10.2 人工神经元及感知机模型 232
10.2.1 基本神经元 232
10.2.2 感知机模型 233
10.3 前向神经网络 234
10.3.1 前向神经网络模型 234
10.3.2 多层前向神经网络的误差反向传播(BP)算法 235
10.3.3 BP算法的苦干改进 237
10.4 径向基函数神经网络 241
10.4.2 正规化问题 242
10.4.1 插值问题 242
10.4.3 RBF网络学习方法 244
10.5 反馈神经网络 247
10.5.1 离散Hopfield网络 247
10.5.2 连续Hopfield网络 253
10.5.3 Hopfield网络应用 255
10.5.4 双向联想记忆模型 256
10.6 随机神经网络 257
10.6.1 模拟退火算法 257
10.6.2 玻尔兹曼机 260
10.7.2 网络自组织算法 263
10.7 自组织特征映射神经网络 263
10.7.1 网络的拓扑结构 263
10.7.3 有教师学习 264
第11章 进化和遗传算法 265
11.1 概述 265
11.2 基本遗传算法 267
11.2.1 基本遗传算法的构成要素 267
11.2.2 基本遗传算法的一般框架 268
11.3 遗传算法的数学理论 270
11.3.1 模式定理 271
11.3.2 积木块假设 273
11.3.4 隐并行性 274
11.3.3 遗传算法欺骗问题 274
11.4 遗传算法的基本实现技术 275
11.4.1 编码方法 275
11.4.2 适应度函数 278
11.4.3 选择算子 280
11.4.4 交叉算子 282
11.4.5 变异算子 284
11.4.6 约束条件的处理方法 285
11.5 遗传算法的高级实现技术 285
11.5.1 反转操作 285
11.5.3 小生境遗传算法 286
11.5.2 变长度染色体遗传算法 286
11.5.4 混合遗传算法 287
11.5.5 改进遗传算法 290
11.6 并行遗传算法 291
11.7 遗传算法应用 292
11.7.1 优化神经网络连接权值 292
11.7.2 用遗传算法优化神经网络连接结构 293
第12章 知识发现平台MSMiner 295
12.1 概述 295
12.2.1 数据仓库含义 297
12.2 数据仓库 297
12.2.2 元数据 298
12.2.3 OLAP 299
12.2.4 数据仓库和数据挖掘技术的结合 299
12.3 MSMiner的体系结构 300
12.3.1 数据挖掘模型 300
12.3.2 系统功能 301
12.3.3 体系结构 302
12.4 元数据管理 303
12.4.1 MSMiner元数据的内容 303
12.4.3 MSMiner元数据对象模型 304
12.4.2 MSMiner元数据库 304
12.5 数据仓库管理器 307
12.5.1 MSMiner数据仓库的基本结构 308
12.5.2 主题 309
12.5.3 数据抽取和集成 310
12.5.4 数据抽取和集成的元数据 313
12.5.5 数据仓库建模及OLAP的实现 314
12.6 算法库管理 318
12.6.1 数据挖掘算法的元数据 318
12.6.2 可扩展性的实现 319
12.6.3 挖掘算法的接口规范 320
12.7.1 面向对象的数据挖掘任务模型 322
12.7 数据挖掘任务规划 322
12.7.2 数据挖掘任务模型的处理 326
12.8 关系数据库知识发现查询语言KDSQL 328
12.8.1 知识对象 328
12.8.2 知识发现查询语言定义 329
12.8.3 扩充的CREATE命令语句 330
12.8.4 扩充的SELECT命令语句 332
第13章 Web知识发现 334
13.1 概述 334
13.2 Web知识发现的任务 336
13.2.1 Web知识发现任务的分类 336
13.2.2 Web内容发现 337
13.3 Web知识发现方法 338
13.2.3 Web结构挖掘 338
13.3.1 文本的特征表示 339
13.3.2 TFIDF向量表示法 340
13.3.3 特征子集的选取 342
13.4 模型质量评价 343
13.5 文本分析功能 344
13.5.1 名字提取 345
13.5.2 术语提取 346
13.5.3 缩写词识别器 346
13.6.1 一般特征项的提取 347
13.5.4 其他提取器 347
13.6 文本特征的提取 347
13.6.2 专有特征项的提取 348
13.7 基于文本挖掘的汉语词性自动标注研究 351
13.8 文本分类 352
13.9 文本聚类 356
13.9.1 层次凝聚法 356
13.9.2 平面划分法 357
13.9.3 简单贝叶斯聚类算法 358
13.9.5 分级聚类 359
13.9.6 基于概念的文本聚类 359
13.9.4 k-最近邻参照聚类算法 359
13.10 文本摘要 361
13.11 用户兴趣挖掘 362
第14章 生物信息知识发现 364
14.1 概述 364
14.2 基因的基本结构 366
14.3 生物信息数据库与查询 367
14.3.1 基因和基因组数据库 367
14.3.2 蛋白质数据库 369
14.3.3 功能数据库 370
14.4.1 序列两两比对 371
14.4 序列比对 371
14.4.2 多序列比对 373
14.5 核酸与蛋白质结构和功能的预测分析 374
14.5.1 核酸序列的预测方法 374
14.5.2 针对蛋白质的预测方法 375
14.6 基因组序列信息分析 377
14.7 功能基因组相关信息分析 380
14.7.1 大规模基因表达谱分析 380
14.7.2 基因组水平蛋白质功能综合预测 381
14.8 Internet资源和公共数据库 382
参考文献 387
索引 398
- 《汉语词汇知识与习得研究》邢红兵主编 2019
- 《弹好钢琴必备的五线谱知识》杨青华威武 2019
- 《国家执业药师考试历年真题试卷全解 2015-2019 中药学专业知识 1》黄坤主编 2020
- 《初中物理知识地图》赵端旭 2017
- 《国家教师资格考试辅导教材 思维导图全解 教育教学知识与能力 小学》师大教科文教材编写组 2020
- 《中药学专业知识 1 国家执业药师考试指南 第7版 2019版》国家药品监督管理局执业药师资格认证中心 2018
- 《2017国家执业药师资格考试 全考点实战通关必备 中药学综合知识与技能 第3版》国家执业药师资格考试命题研究专家组 2017
- 《保教知识与能力》师大教科文教材编写组编著 2020
- 《金匮要略核心知识点全攻略》温成平,曹灵勇 2019
- 《中药学综合知识与技能 全解析 2016版》田磊编著 2016
- 《智能科学 第3版》史忠植著 2019
- 《酸枣崖》曹伯植著 2016
- 《20世纪中国图书馆学文库 8 图书馆学ABC》沈学植著 2013
- 《销售密码 超值典藏版》(韩)金宪植著;千太阳译 2013
- 《不去再也看不到 9个人类最后的原生态宝地》(韩)李正植著;金桂英,南春子译 2013
- 《种甘蔗法》许祖植著 1930
- 《海日楼札丛 外一种》沈曾植著 2009
- 《偶然集》黄祖植著 2007
- 《《淮南子》与《文子》考辨》丁原植著 1999
- 《沈曾植墨迹》沈曾植著 1991
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019