第1章 绪论 1
1.1研究背景 1
1.2研究对象 1
1.3研究现状 2
1.4研究内容 6
1.5全书内容安排 8
参考文献 9
第2章 中文新闻网页正文抽取 15
2.1概述 15
2.2文本密度判别法 16
2.2.1相关定义及假设 16
2.2.2统计分析 17
2.2.3密度区分阈值 21
2.3方法实现 25
2.3.1转换HTML为DOM树 25
2.3.2获取文本结点 25
2.3.3计算文本密度 26
2.3.4判别分析 26
2.4实验结果及分析 27
2.4.1实验数据 27
2.4.2评价指标 27
2.4.3实验步骤及结果 27
2.4.4结果分析 29
2.5本章小结 29
参考文献 29
第3章 中文新闻重复网页识别 31
3.1概述 31
3.2算法设计 32
3.2.1重复网页的界定 32
3.2.2算法思想 32
3.2.3后缀树 33
3.2.4 Ukkonen算法 33
3.2.5 Matching Statistics算法 35
3.2.6相似度计算 36
3.3算法实现 38
3.3.1改进的Ukkonen算法 38
3.3.2改进的Matching Statistics算法 40
3.3.3中文新闻重复网页识别算法 42
3.4实验结果及分析 43
3.4.1实验说明 43
3.4.2评价标准 43
3.4.3实验结果与分析 44
3.5本章小结 45
参考文献 46
第4章 中文新闻网页关键词抽取 48
4.1概述 48
4.2网页内容及关键词构成分析 50
4.2.1网页内容分析 50
4.2.2关键词特征分析 51
4.3关键词抽取 56
4.3.1网页正文抽取 56
4.3.2新闻文本分词 56
4.3.3综合加权 57
4.3.4候选关键词组配 59
4.4实验结果与分析 61
4.4.1实验数据 61
4.4.2评价标准 62
4.4.3实验结果与分析 63
4.5本章小结 65
参考文献 65
第5章 中文新闻网页自动分类 67
5.1概述 67
5.2新闻网页预处理 68
5.2.1创建新闻分类标注语料库 68
5.2.2抽取新闻网页正文 70
5.2.3正文文本分词及创建索引 70
5.3基于标题的自动分类方法 71
5.3.1词长加权法 71
5.3.2简单类目加权法 73
5.3.3经典类目加权法 74
5.3.4改进的类目加权法 75
5.4实验结果与分析 78
5.4.1性能评价指标 78
5.4.2实验结果 79
5.4.3结果分析 80
5.5本章小结 84
参考文献 85
第6章 中文新闻网页主题聚合 87
6.1概述 87
6.2模型设计 87
6.2.1系统模型 88
6.2.2系统流程 89
6.3系统关键技术 90
6.3.1主题选择模块 90
6.3.2 RSS Feed初始集合选择模块 92
6.3.3 RSS聚合模块 92
6.3.4 RSS Feed分析模块 93
6.3.5 RSS Item分析过滤模块 93
6.3.6超链接自动提取模块 97
6.3.7 RSS Feed自动发现模块 97
6.4系统的实现 98
6.4.1测试硬件配置 98
6.4.2测试集的选择 98
6.4.3系统测试 98
6.5本章小结 99
参考文献 100
第7章 基于主题的网络舆情分析 101
7.1概述 101
7.2模型设计 102
7.3基于主题的网络舆情分析 102
7.3.1舆情主题规划 102
7.3.2舆情信息采集 103
7.3.3舆情信息分析 105
7.3.4舆情预警处理 108
7.4模型实现 108
7.4.1实现环境 108
7.4.2技术支撑 108
7.4.3实现流程 109
7.4.4测试集的选择 111
7.4.5测试结果分析 111
7.5本章小结 115
参考文献 115
第8章 结束语 117
8.1总结 117
8.2进一步的研究工作 119
附录A 关键词抽取对照数据表 120
附录B 新闻语料库来源网站 140
附录C 江苏法院网络舆情分析系统 144
后记 150