《文本挖掘中若干核心技术研究》PDF下载

  • 购买积分:8 如何计算积分?
  • 作  者:朱颢东著
  • 出 版 社:北京:北京理工大学出版社
  • 出版年份:2017
  • ISBN:9787568205061
  • 页数:120 页
图书介绍:本书以文本数据为研究对象,对文本挖掘中的若干核心技术进行研究,主要包括文本特征选择、文本分类、文本聚类、文本关联分析,其研究内容和创新点如下:(1)文本特征选择:首先系统地分析了常用的文本特征选择方法,总结了它们的不足;然后提出了优化的文档频、文本特征辨别能力、类内集中度等概念;紧接着,在此基础上给出了三种新的文本特征选择方法:①基于综合启发式的文本特征选择方法;②基于差别对象对集的文本特征选择方法;③基于二进制可辨矩阵的文本特征选择方法。实验结果表明:在微平均F1和宏平均F1方面,这三种方法比三种经典的文本特征选择方法“互信息”和“统计量”以及“信息增益”都要好,并且前一个方法优于后两个方法。(2)文本分类:首先对文本分类所涉及的各项技术进行了阐述;然后把粗糙集用于文本分类;紧接着提出了基于辨识集的属性约简算法和基于规则综合质量的属性值约简算法,并将其应用到文本分类规则的提取中。实验结果表明,其生成的规则属性较少,分类准确率和召回率都较高。针对传统ID3算法倾向于选择取值较多的属性的缺点,首先引进属性重要性来改进ID3算法,然后又进一步根据ID3算法中信息增益的计算特点,利用凸函数的

第1章 绪论 1

1.1 课题研究背景及意义 1

1.2 课题国内外研究现状 2

1.3 课题研究难点 4

1.4 文本挖掘概述 6

1.5 本书所研究的核心技术 8

1.6 相关粗糙集基础知识 10

1.7 本书的组织结构、主要工作和创新点 14

第2章 文本特征选择 17

2.1 引言 17

2.2 文本表示方法 17

2.3 常用的文本特征权重计算方法 19

2.4 文本特征选择简介 21

2.5 所提的文本特征选择方法 26

2.6 实验仿真验证 38

2.7 本章小结 45

第3章 文本分类 46

3.1 引言 46

3.2 文本分类的定义 46

3.3 常用的文本分类器 47

3.4 基于粗糙集理论的文本分类研究 49

3.5 ID3算法的优化 57

3.6 本章小结 67

第4章 文本聚类 68

4.1 引言 68

4.2 文本聚类简介 69

4.3 主要聚类方法 69

4.4 K-Means算法的改进 71

4.5 无监督文本特征选择方法研究 76

4.6 本章小结 88

第5章 文本关联分析 89

5.1 引言 89

5.2 文本关联规则 89

5.3 频繁项集挖掘算法 90

5.4 文本关联规则挖掘 94

5.5 本章小结 103

第6章 总结与展望 104

6.1 本书的主要研究内容、成果和创新点 104

6.2 本书研究的不足和进一步工作展望 105

参考文献 106

致谢 120