《文本分类中的特征选择方法研究》PDF下载

  • 购买积分:8 如何计算积分?
  • 作  者:甄志龙著
  • 出 版 社:长春:吉林大学出版社
  • 出版年份:2016
  • ISBN:9787567782181
  • 页数:134 页
图书介绍:现代社会步入了一个信息时代,各种信息资源无处不在,作为主要信息载体之一的文本信息以超乎人们想象的速度不断地涌现。大量的文本信息超过了人们可以直接处理的范围。为了有效地管理这些信息,自动文本分类技术自然地受到人们的普遍关注,它是解决海量文本信息的有效手段。自动文本分类技术可以帮助我们将大量的文本自动地按照类别或主题的方式进行存储、组织和管理,便于文本的检索、阅读和处理,已经成为信息检索、文本挖掘和自然语言处理等领域中的主要研究方向之一。

第一章 绪论 3

1.1 研究背景 3

1.2 研究意义 4

1.2.1 文本分类的研究意义 4

1.2.2 特征选择的研究意义 5

1.3 国内外研究现状 7

1.4 本文主要工作 11

1.5 本文内容安排 13

第二章 文本分类与特征选择概述 17

2.1 文本分类过程 17

2.1.1 文本预处理 18

2.1.2 文本表示 18

2.1.3 特征降维 23

2.1.4 分类器训练 23

2.1.5 测试和评价 23

2.2 文本特征选择方法 24

2.2.1 文本频率 25

2.2.2 信息增益 25

2.2.3 卡方统计量 26

2.3 性能评价指标 26

2.4 本章小结 29

第三章 基于类文本频率的特征选择方法 33

3.1 引言 33

3.2 类文本频率 35

3.3 类间差异性的度量 36

3.4 基于类文本频率的特征选择算法 37

3.5 实验比较 39

3.5.1 实验数据集 39

3.5.2 文本预处理 41

3.5.3 k近邻分类器 41

3.5.4 实验结果与分析 42

3.6 本章小结 47

第四章 一种面向概率分布的特征选择方法 51

4.1 引言 51

4.2 特征的概率分布 53

4.3 面向概率分布的特征选择算法 56

4.4 实验比较 56

4.4.1 实验数据与设置 56

4.4.2 实验结果与分析 57

4.5 本章小结 61

第五章 基于相对熵的卡方统计量特征选择方法 65

5.1 引言 65

5.2 基于相对熵的特征全局评价函数 67

5.3 相对熵卡方统计量的特征选择方法 70

5.4 实验比较 74

5.4.1 实验数据与设置 74

5.4.2 实验结果与分析 75

5.5 本章小结 82

第六章 基于模糊关系的特征选择方法 85

6.1 引言 85

6.2 特征与类的模糊关系 86

6.3 基于模糊关系的特征选择方法 87

6.4 实验比较 88

6.4.1 实验数据与设置 88

6.4.2 实验结果与分析 89

6.5 本章小结 94

第七章 基于径向基函数网络敏感性的特征选择方法 97

7.1 引言 97

7.2 网络模型及符号说明 99

7.3 敏感性的定义与计算 100

7.3.1 均方偏差敏感性 100

7.3.2 敏感性的计算 101

7..基于敏感性准则的特征选择方法 104

7.5 实验比较 105

7.5 1 人工数据集 106

7.5.2 UCI Iris数据集 110

7.5.3 UCI Waveform-40数据集 111

7.6 本章小结 114

第八章 总结和展望 117

8.1 本文工作总结 117

8.2 未来工作展望 119

参考文献 121