《中文文本聚类研究》PDF下载

  • 购买积分:10 如何计算积分?
  • 作  者:龚静著
  • 出 版 社:北京:中国传媒大学出版社
  • 出版年份:2012
  • ISBN:756570444X
  • 页数:203 页
图书介绍:文本聚类技术是提高计算机搜索引擎性能的一种行之有效的方法,被广泛应用于自然语言处理、信息检索、web挖掘等领域。本书系统总结和讲解了中文文本聚类中的概念和方法,吸取了该领域最新研究成果,有一定的学术价值。

第1章 绪论 1

1.1 文本挖掘 1

1.1.1 文本挖掘的定义 1

1.1.2 文本挖掘的内容 2

1.1.3 文本挖掘的特点 4

1.1.4 常用文本挖掘技术 4

1.1.5 文本挖掘中面临的问题 5

1.2 文本聚类 7

1.2.1 聚类的概念 7

1.2.2 文本聚类 8

1.2.3 文本聚类的应用 12

1.2.4 中文文本聚类过程 13

1.2.5 文本聚类研究的难点 14

1.2.6 文本聚类研究进展 15

1.3 文本相似度衡量 17

1.3.1 文档与文档之间的相似度度量 17

1.3.2 文档集合与文档集合之间的相似度度量 19

1.3.3 文档与文档集合之间的相似度度量 20

1.4 文本聚类结果的评价方法 20

1.4.1 基于人工判定的指标 21

1.4.2 基于目标函数的指标 22

第2章 中文文本的数学描述 25

2.1 文本预处理 25

2.1.1 文本预处理概述 25

2.1.2 文本预处理的过程 26

2.2 中文文本特征项的表示方法 26

2.2.1 基于字的特征表示法 27

2.2.2 基于词的特征表示法 28

2.2.3 基于概念的特征项表示法 28

2.2.4 基于短语的特征表示法 29

2.2.5 基于N-Grams的特征表示法 29

2.3 中文分词 30

2.3.1 分词的概念 30

2.3.2 中文分词难点 31

2.3.3 分词算法 33

2.3.4 中文分词衡量的指标 36

2.3.5 中文分词系统 37

2.4 数据清洗 39

2.4.1 停用词过滤 39

2.4.2 同义词归并 40

2.5 文本表示模型 41

2.5.1 布尔逻辑模型 41

2.5.2 向量空间模型 42

2.5.3 模糊逻辑模型 46

2.5.4 概率模型 46

2.5.5 语言模型 46

第3章 词语权重计算方法 48

3.1 基于频率特性的单词权重计算方法 48

3.1.1 布尔函数 48

3.1.2 特征项频率 49

3.1.3 对数函数 49

3.1.4 反文档频率 49

3.1.5 TF-IDF函数 50

3.1.6 四种基于频率特性的单词权重计算方法比较 51

3.2 基于语义的特征项加权方法 53

3.2.1 基于词语语义的加权方法 53

3.2.2 基于词语间的语义关系的加权方法 55

3.2.3 基于多重因子加权的权值计算方法 62

3.2.4 基于单种语义的加权方法与基于多重因子加权方法比较 64

第4章 特征降维方法 66

4.1 特征降维 66

4.1.1 特征降维概述 66

4.1.2 特征降维技术 67

4.2 特征选择 68

4.2.1 特征选择的定义 68

4.2.2 特征选择原则 69

4.2.3 特征选择的过程 70

4.2.4 特征选择算法 70

4.2.5 几种新的用于文本聚类的特征选择方法 75

4.3 特征抽取 90

4.3.1 特征抽取概述 90

4.3.2 特征抽取方法 91

4.3.3 一种基于知网的特征抽取方法 98

第5章 文本聚类算法 104

5.1 聚类算法的分类 104

5.1.1 划分聚类算法 104

5.1.2 层次聚类算法 105

5.1.3 基于密度的聚类算法 106

5.1.4 基于网格的聚类算法 107

5.1.5 基于模型的聚类算法 108

5.1.6 基于概念的聚类算法 108

5.1.7 基于短文本的聚类算法 109

5.1.8 其他聚类算法 110

5.2 如何选择具体的聚类算法 110

5.2.1 聚类的类型 111

5.2.2 簇的类型及特征 111

5.2.3 噪声和离群点的考虑 111

5.2.4 数据对象的个数 112

5.3 常用的中文文本聚类算法 113

5.3.1 基于密度的文本聚类算法 113

5.3.2 基于划分的文本聚类算法 117

5.3.3 基于层次的文本聚类算法 120

5.3.4 基于网格的算法 124

5.3.5 基于模型的算法 127

5.3.6 其他聚类算法 136

5.3.7 基于人工免疫的文本聚类算法 151

第6章 文本聚类算法的改进 157

6.1 k-means算法改进 157

6.1.1 k-means算法存在的不足 157

6.1.2 一种基于层次聚类的k-means算法 158

6.2 DBSACAN算法改进 163

6.2.1 DBSCAN算法存在的不足 163

6.2.2 DETC文本聚类算法 163

6.3 模糊C均值聚类算法改进 169

6.3.1 模糊C均值聚类算法解析 169

6.3.2 基于遗传算法的文本模糊聚类方法FCMGO 170

6.4 自组织特征映射算法(SOM)改进 176

6.4.1 SOM算法不足分析 176

6.4.2 一种动态SOM的增量中文文本聚类方法 176

6.5 蚁群算法的改进 183

6.5.1 蚁群算法存在的不足 183

6.5.2 一种改进的蚁群算法 183

附录 中英文关键词对照表 188

参考文献 190