第1章 绪论 1
1.1 引言 1
1.2 相关研究介绍 4
1.2.1 不均衡分类 4
1.2.2 基于文本的半监督学习 7
1.2.3 主题句提取 10
1.3 本书的组织结构 11
第2章 文本分类技术 14
2.1 问题描述 14
2.2 文本预处理 16
2.3 文本表示 18
2.3.1 向量空间模型 18
2.3.2 特征选择 19
2.3.3 特征权重计算 23
2.4 文本分类器 25
2.4.1 Rocchio分类器 26
2.4.2 Na?ve Bayes分类器 27
2.4.3 KNN分类器 28
2.4.4 关联规则 30
2.4.5 决策树 33
2.4.6 支持向量机 35
2.4.7 Logistic回归 39
2.4.8 分类器集成 41
2.5 文本分类公共测试数据集 42
2.6 分类性能评估 43
2.6.1 评估方法 43
2.6.2 评估指标 44
2.7 本章小结 48
第3章 蛋白质相互作用文本信息处理 49
3.1 引言 49
3.2 蛋白质相互作用资源库 50
3.3 信息处理技术在蛋白质相互作用信息抽取中的应用 53
3.4 本章小结 56
第4章 基于不均衡数据集的文本分类 58
4.1 引言 58
4.2 基于特征类别分布的权重计算 59
4.2.1 传统TFIDF权重算法分析 59
4.2.2 已有的TFIDF的相关改进 61
4.2.3 基于特征类别分布的权重计算 63
4.3 基于I_TFIDF的SVM应用 66
4.3.1 实验数据集 66
4.3.2 SVM上I_TFIDF与其他权重算法的比较 68
4.3.3 实验结果与分析 70
4.3.4 实验结论 76
4.4 基于I_TFIDF的改进KNN 77
4.4.1 引言 77
4.4.2 基于I_TFIDF的KNN 78
4.4.3 实验设计 79
4.4.4 实验结果与分析 80
4.4.5 实验结论 84
4.5 Logistic回归的自适应决策阈值选择 87
4.5.1 引言 87
4.5.2 自适应学习决策阈值的算法 87
4.5.3 实验设计 90
4.5.4 实验结果与分析 90
4.5.5 实验结论 93
4.6 本章小结 93
第5章 基于混合模型的主题句提取 94
5.1 引言 94
5.2 基于混合模型的主题句提取算法 97
5.3 实验数据集 100
5.4 实验设计 101
5.5 实验结果分析 103
5.6 实验结论 105
第6章 基于文本的半监督学习 106
6.1 引言 106
6.2 相关研究 106
6.3 半监督学习数据集 109
6.4 不均衡数据比例的分类比较 110
6.5 提出的半监督学习算法 118
6.5.1 AdaBoost算法 118
6.5.2 提出的基于Boosting的半监督学习方法 119
6.5.3 实验设计 122
6.5.4 实验结果与分析 124
6.5.5 实验结论 130
6.6 本章小结 130
第7章 文本分类工具 131
7.1 Libsvm 131
7.1.1 Libsvm简介 131
7.1.2 Libsvm使用方法 131
7.2 Rainbow 134
7.2.1 Rainbow简介 134
7.2.2 Rainbow使用方法 135
参考文献 140