《中文新闻网页处理与舆情分析》PDF下载

  • 购买积分:9 如何计算积分?
  • 作  者:钱爱兵著(南京中医药大学经贸管理学院)
  • 出 版 社:南京:南京大学出版社
  • 出版年份:2012
  • ISBN:9787305110467
  • 页数:152 页
图书介绍:本书以新闻网页为例,结合新闻的专有特性,面向舆情分析,从六个方面对中文新闻网页处理过程中涉及的关键技术问题进行深入系统地研究,即:新闻网页正文抽取、重复新闻网页识别、新闻网页关键词抽取、新闻网页自动分类、主题新闻网页聚合、网络舆情分析,并给出相应的解决方法。通过对网络舆情信息进行及时、全面、准确地分析与处理,最终达到随时关注社会动态,为决策者进行正确选择与科学决策提供支持的目标。

第1章 绪论 1

1.1研究背景 1

1.2研究对象 1

1.3研究现状 2

1.4研究内容 6

1.5全书内容安排 8

参考文献 9

第2章 中文新闻网页正文抽取 15

2.1概述 15

2.2文本密度判别法 16

2.2.1相关定义及假设 16

2.2.2统计分析 17

2.2.3密度区分阈值 21

2.3方法实现 25

2.3.1转换HTML为DOM树 25

2.3.2获取文本结点 25

2.3.3计算文本密度 26

2.3.4判别分析 26

2.4实验结果及分析 27

2.4.1实验数据 27

2.4.2评价指标 27

2.4.3实验步骤及结果 27

2.4.4结果分析 29

2.5本章小结 29

参考文献 29

第3章 中文新闻重复网页识别 31

3.1概述 31

3.2算法设计 32

3.2.1重复网页的界定 32

3.2.2算法思想 32

3.2.3后缀树 33

3.2.4 Ukkonen算法 33

3.2.5 Matching Statistics算法 35

3.2.6相似度计算 36

3.3算法实现 38

3.3.1改进的Ukkonen算法 38

3.3.2改进的Matching Statistics算法 40

3.3.3中文新闻重复网页识别算法 42

3.4实验结果及分析 43

3.4.1实验说明 43

3.4.2评价标准 43

3.4.3实验结果与分析 44

3.5本章小结 45

参考文献 46

第4章 中文新闻网页关键词抽取 48

4.1概述 48

4.2网页内容及关键词构成分析 50

4.2.1网页内容分析 50

4.2.2关键词特征分析 51

4.3关键词抽取 56

4.3.1网页正文抽取 56

4.3.2新闻文本分词 56

4.3.3综合加权 57

4.3.4候选关键词组配 59

4.4实验结果与分析 61

4.4.1实验数据 61

4.4.2评价标准 62

4.4.3实验结果与分析 63

4.5本章小结 65

参考文献 65

第5章 中文新闻网页自动分类 67

5.1概述 67

5.2新闻网页预处理 68

5.2.1创建新闻分类标注语料库 68

5.2.2抽取新闻网页正文 70

5.2.3正文文本分词及创建索引 70

5.3基于标题的自动分类方法 71

5.3.1词长加权法 71

5.3.2简单类目加权法 73

5.3.3经典类目加权法 74

5.3.4改进的类目加权法 75

5.4实验结果与分析 78

5.4.1性能评价指标 78

5.4.2实验结果 79

5.4.3结果分析 80

5.5本章小结 84

参考文献 85

第6章 中文新闻网页主题聚合 87

6.1概述 87

6.2模型设计 87

6.2.1系统模型 88

6.2.2系统流程 89

6.3系统关键技术 90

6.3.1主题选择模块 90

6.3.2 RSS Feed初始集合选择模块 92

6.3.3 RSS聚合模块 92

6.3.4 RSS Feed分析模块 93

6.3.5 RSS Item分析过滤模块 93

6.3.6超链接自动提取模块 97

6.3.7 RSS Feed自动发现模块 97

6.4系统的实现 98

6.4.1测试硬件配置 98

6.4.2测试集的选择 98

6.4.3系统测试 98

6.5本章小结 99

参考文献 100

第7章 基于主题的网络舆情分析 101

7.1概述 101

7.2模型设计 102

7.3基于主题的网络舆情分析 102

7.3.1舆情主题规划 102

7.3.2舆情信息采集 103

7.3.3舆情信息分析 105

7.3.4舆情预警处理 108

7.4模型实现 108

7.4.1实现环境 108

7.4.2技术支撑 108

7.4.3实现流程 109

7.4.4测试集的选择 111

7.4.5测试结果分析 111

7.5本章小结 115

参考文献 115

第8章 结束语 117

8.1总结 117

8.2进一步的研究工作 119

附录A 关键词抽取对照数据表 120

附录B 新闻语料库来源网站 140

附录C 江苏法院网络舆情分析系统 144

后记 150