中文文本聚类研究PDF电子书下载
- 电子书积分:10 积分如何计算积分?
- 作 者:龚静著
- 出 版 社:北京:中国传媒大学出版社
- 出版年份:2012
- ISBN:756570444X
- 页数:203 页
第1章 绪论 1
1.1 文本挖掘 1
1.1.1 文本挖掘的定义 1
1.1.2 文本挖掘的内容 2
1.1.3 文本挖掘的特点 4
1.1.4 常用文本挖掘技术 4
1.1.5 文本挖掘中面临的问题 5
1.2 文本聚类 7
1.2.1 聚类的概念 7
1.2.2 文本聚类 8
1.2.3 文本聚类的应用 12
1.2.4 中文文本聚类过程 13
1.2.5 文本聚类研究的难点 14
1.2.6 文本聚类研究进展 15
1.3 文本相似度衡量 17
1.3.1 文档与文档之间的相似度度量 17
1.3.2 文档集合与文档集合之间的相似度度量 19
1.3.3 文档与文档集合之间的相似度度量 20
1.4 文本聚类结果的评价方法 20
1.4.1 基于人工判定的指标 21
1.4.2 基于目标函数的指标 22
第2章 中文文本的数学描述 25
2.1 文本预处理 25
2.1.1 文本预处理概述 25
2.1.2 文本预处理的过程 26
2.2 中文文本特征项的表示方法 26
2.2.1 基于字的特征表示法 27
2.2.2 基于词的特征表示法 28
2.2.3 基于概念的特征项表示法 28
2.2.4 基于短语的特征表示法 29
2.2.5 基于N-Grams的特征表示法 29
2.3 中文分词 30
2.3.1 分词的概念 30
2.3.2 中文分词难点 31
2.3.3 分词算法 33
2.3.4 中文分词衡量的指标 36
2.3.5 中文分词系统 37
2.4 数据清洗 39
2.4.1 停用词过滤 39
2.4.2 同义词归并 40
2.5 文本表示模型 41
2.5.1 布尔逻辑模型 41
2.5.2 向量空间模型 42
2.5.3 模糊逻辑模型 46
2.5.4 概率模型 46
2.5.5 语言模型 46
第3章 词语权重计算方法 48
3.1 基于频率特性的单词权重计算方法 48
3.1.1 布尔函数 48
3.1.2 特征项频率 49
3.1.3 对数函数 49
3.1.4 反文档频率 49
3.1.5 TF-IDF函数 50
3.1.6 四种基于频率特性的单词权重计算方法比较 51
3.2 基于语义的特征项加权方法 53
3.2.1 基于词语语义的加权方法 53
3.2.2 基于词语间的语义关系的加权方法 55
3.2.3 基于多重因子加权的权值计算方法 62
3.2.4 基于单种语义的加权方法与基于多重因子加权方法比较 64
第4章 特征降维方法 66
4.1 特征降维 66
4.1.1 特征降维概述 66
4.1.2 特征降维技术 67
4.2 特征选择 68
4.2.1 特征选择的定义 68
4.2.2 特征选择原则 69
4.2.3 特征选择的过程 70
4.2.4 特征选择算法 70
4.2.5 几种新的用于文本聚类的特征选择方法 75
4.3 特征抽取 90
4.3.1 特征抽取概述 90
4.3.2 特征抽取方法 91
4.3.3 一种基于知网的特征抽取方法 98
第5章 文本聚类算法 104
5.1 聚类算法的分类 104
5.1.1 划分聚类算法 104
5.1.2 层次聚类算法 105
5.1.3 基于密度的聚类算法 106
5.1.4 基于网格的聚类算法 107
5.1.5 基于模型的聚类算法 108
5.1.6 基于概念的聚类算法 108
5.1.7 基于短文本的聚类算法 109
5.1.8 其他聚类算法 110
5.2 如何选择具体的聚类算法 110
5.2.1 聚类的类型 111
5.2.2 簇的类型及特征 111
5.2.3 噪声和离群点的考虑 111
5.2.4 数据对象的个数 112
5.3 常用的中文文本聚类算法 113
5.3.1 基于密度的文本聚类算法 113
5.3.2 基于划分的文本聚类算法 117
5.3.3 基于层次的文本聚类算法 120
5.3.4 基于网格的算法 124
5.3.5 基于模型的算法 127
5.3.6 其他聚类算法 136
5.3.7 基于人工免疫的文本聚类算法 151
第6章 文本聚类算法的改进 157
6.1 k-means算法改进 157
6.1.1 k-means算法存在的不足 157
6.1.2 一种基于层次聚类的k-means算法 158
6.2 DBSACAN算法改进 163
6.2.1 DBSCAN算法存在的不足 163
6.2.2 DETC文本聚类算法 163
6.3 模糊C均值聚类算法改进 169
6.3.1 模糊C均值聚类算法解析 169
6.3.2 基于遗传算法的文本模糊聚类方法FCMGO 170
6.4 自组织特征映射算法(SOM)改进 176
6.4.1 SOM算法不足分析 176
6.4.2 一种动态SOM的增量中文文本聚类方法 176
6.5 蚁群算法的改进 183
6.5.1 蚁群算法存在的不足 183
6.5.2 一种改进的蚁群算法 183
附录 中英文关键词对照表 188
参考文献 190
- 《红色旅游的社会效应研究》吴春焕著 2019
- 《汉语词汇知识与习得研究》邢红兵主编 2019
- 《生物质甘油共气化制氢基础研究》赵丽霞 2019
- 《东北民歌文化研究及艺术探析》(中国)杨清波 2019
- 《联吡啶基钌光敏染料的结构与性能的理论研究》李明霞 2019
- 《异质性条件下技术创新最优市场结构研究 以中国高技术产业为例》千慧雄 2019
- 《《国语》和《战国策》词汇比较研究》陈长书著 2017
- 《中国制造业绿色供应链发展研究报告》中国电子信息产业发展研究院 2019
- 《行政保留研究》门中敬著 2019
- 《新课标背景下英语教学理论与教学活动研究》应丽君 2018
- 《丝弦乐》周静著 2019
- 《文创理念与当代中国文化传播》胡钰,薛静著 2020
- 《新型城镇化的理论与实践》何育静著 2018
- 《文化传播视角下英汉翻译理论与实践的再探索》朱静著 2020
- 《钢琴音乐风格与创作研究》袁文静著 2019
- 《纽约纽约》赵静著 2019
- 《精准扶贫精准脱贫百村调研》刘同山,汪武静著 2018
- 《依法治国视阈下甘肃省生态文明建设路径探究》魏静著 2018
- 《“二程”教化思想研究》丁静著 2018
- 《2019注册电气工程师执业职格考试专业基础考点剖析与真题详解》龚静主编 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《中国当代乡土小说文库 本乡本土》(中国)刘玉堂 2019
- 《异质性条件下技术创新最优市场结构研究 以中国高技术产业为例》千慧雄 2019
- 《中国铁路人 第三届现实主义网络文学征文大赛一等奖》恒传录著 2019
- 《莼江曲谱 2 中国昆曲博物馆藏稀见昆剧手抄曲谱汇编之一》郭腊梅主编;孙伊婷副主编;孙文明,孙伊婷编委;中国昆曲博物馆编 2018
- 《中国制造业绿色供应链发展研究报告》中国电子信息产业发展研究院 2019
- 《中国陈设艺术史》赵囡囡著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《《走近科学》精选丛书 中国UFO悬案调查》郭之文 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019