第一章 绪论 3
1.1 研究背景 3
1.2 研究意义 4
1.2.1 文本分类的研究意义 4
1.2.2 特征选择的研究意义 5
1.3 国内外研究现状 7
1.4 本文主要工作 11
1.5 本文内容安排 13
第二章 文本分类与特征选择概述 17
2.1 文本分类过程 17
2.1.1 文本预处理 18
2.1.2 文本表示 18
2.1.3 特征降维 23
2.1.4 分类器训练 23
2.1.5 测试和评价 23
2.2 文本特征选择方法 24
2.2.1 文本频率 25
2.2.2 信息增益 25
2.2.3 卡方统计量 26
2.3 性能评价指标 26
2.4 本章小结 29
第三章 基于类文本频率的特征选择方法 33
3.1 引言 33
3.2 类文本频率 35
3.3 类间差异性的度量 36
3.4 基于类文本频率的特征选择算法 37
3.5 实验比较 39
3.5.1 实验数据集 39
3.5.2 文本预处理 41
3.5.3 k近邻分类器 41
3.5.4 实验结果与分析 42
3.6 本章小结 47
第四章 一种面向概率分布的特征选择方法 51
4.1 引言 51
4.2 特征的概率分布 53
4.3 面向概率分布的特征选择算法 56
4.4 实验比较 56
4.4.1 实验数据与设置 56
4.4.2 实验结果与分析 57
4.5 本章小结 61
第五章 基于相对熵的卡方统计量特征选择方法 65
5.1 引言 65
5.2 基于相对熵的特征全局评价函数 67
5.3 相对熵卡方统计量的特征选择方法 70
5.4 实验比较 74
5.4.1 实验数据与设置 74
5.4.2 实验结果与分析 75
5.5 本章小结 82
第六章 基于模糊关系的特征选择方法 85
6.1 引言 85
6.2 特征与类的模糊关系 86
6.3 基于模糊关系的特征选择方法 87
6.4 实验比较 88
6.4.1 实验数据与设置 88
6.4.2 实验结果与分析 89
6.5 本章小结 94
第七章 基于径向基函数网络敏感性的特征选择方法 97
7.1 引言 97
7.2 网络模型及符号说明 99
7.3 敏感性的定义与计算 100
7.3.1 均方偏差敏感性 100
7.3.2 敏感性的计算 101
7..基于敏感性准则的特征选择方法 104
7.5 实验比较 105
7.5 1 人工数据集 106
7.5.2 UCI Iris数据集 110
7.5.3 UCI Waveform-40数据集 111
7.6 本章小结 114
第八章 总结和展望 117
8.1 本文工作总结 117
8.2 未来工作展望 119
参考文献 121