中文新闻网页处理与舆情分析PDF电子书下载
- 电子书积分:9 积分如何计算积分?
- 作 者:钱爱兵著(南京中医药大学经贸管理学院)
- 出 版 社:南京:南京大学出版社
- 出版年份:2012
- ISBN:9787305110467
- 页数:152 页
第1章 绪论 1
1.1研究背景 1
1.2研究对象 1
1.3研究现状 2
1.4研究内容 6
1.5全书内容安排 8
参考文献 9
第2章 中文新闻网页正文抽取 15
2.1概述 15
2.2文本密度判别法 16
2.2.1相关定义及假设 16
2.2.2统计分析 17
2.2.3密度区分阈值 21
2.3方法实现 25
2.3.1转换HTML为DOM树 25
2.3.2获取文本结点 25
2.3.3计算文本密度 26
2.3.4判别分析 26
2.4实验结果及分析 27
2.4.1实验数据 27
2.4.2评价指标 27
2.4.3实验步骤及结果 27
2.4.4结果分析 29
2.5本章小结 29
参考文献 29
第3章 中文新闻重复网页识别 31
3.1概述 31
3.2算法设计 32
3.2.1重复网页的界定 32
3.2.2算法思想 32
3.2.3后缀树 33
3.2.4 Ukkonen算法 33
3.2.5 Matching Statistics算法 35
3.2.6相似度计算 36
3.3算法实现 38
3.3.1改进的Ukkonen算法 38
3.3.2改进的Matching Statistics算法 40
3.3.3中文新闻重复网页识别算法 42
3.4实验结果及分析 43
3.4.1实验说明 43
3.4.2评价标准 43
3.4.3实验结果与分析 44
3.5本章小结 45
参考文献 46
第4章 中文新闻网页关键词抽取 48
4.1概述 48
4.2网页内容及关键词构成分析 50
4.2.1网页内容分析 50
4.2.2关键词特征分析 51
4.3关键词抽取 56
4.3.1网页正文抽取 56
4.3.2新闻文本分词 56
4.3.3综合加权 57
4.3.4候选关键词组配 59
4.4实验结果与分析 61
4.4.1实验数据 61
4.4.2评价标准 62
4.4.3实验结果与分析 63
4.5本章小结 65
参考文献 65
第5章 中文新闻网页自动分类 67
5.1概述 67
5.2新闻网页预处理 68
5.2.1创建新闻分类标注语料库 68
5.2.2抽取新闻网页正文 70
5.2.3正文文本分词及创建索引 70
5.3基于标题的自动分类方法 71
5.3.1词长加权法 71
5.3.2简单类目加权法 73
5.3.3经典类目加权法 74
5.3.4改进的类目加权法 75
5.4实验结果与分析 78
5.4.1性能评价指标 78
5.4.2实验结果 79
5.4.3结果分析 80
5.5本章小结 84
参考文献 85
第6章 中文新闻网页主题聚合 87
6.1概述 87
6.2模型设计 87
6.2.1系统模型 88
6.2.2系统流程 89
6.3系统关键技术 90
6.3.1主题选择模块 90
6.3.2 RSS Feed初始集合选择模块 92
6.3.3 RSS聚合模块 92
6.3.4 RSS Feed分析模块 93
6.3.5 RSS Item分析过滤模块 93
6.3.6超链接自动提取模块 97
6.3.7 RSS Feed自动发现模块 97
6.4系统的实现 98
6.4.1测试硬件配置 98
6.4.2测试集的选择 98
6.4.3系统测试 98
6.5本章小结 99
参考文献 100
第7章 基于主题的网络舆情分析 101
7.1概述 101
7.2模型设计 102
7.3基于主题的网络舆情分析 102
7.3.1舆情主题规划 102
7.3.2舆情信息采集 103
7.3.3舆情信息分析 105
7.3.4舆情预警处理 108
7.4模型实现 108
7.4.1实现环境 108
7.4.2技术支撑 108
7.4.3实现流程 109
7.4.4测试集的选择 111
7.4.5测试结果分析 111
7.5本章小结 115
参考文献 115
第8章 结束语 117
8.1总结 117
8.2进一步的研究工作 119
附录A 关键词抽取对照数据表 120
附录B 新闻语料库来源网站 140
附录C 江苏法院网络舆情分析系统 144
后记 150
- 《管理信息系统习题集》郭晓军 2016
- 《全国高等中医药行业“十三五”创新教材 中医药学概论》翟华强 2019
- 《MBA大师.2020年MBAMPAMPAcc管理类联考专用辅导教材 数学考点精讲》(中国)董璞 2019
- 《信息系统安全技术管理策略 信息安全经济学视角》赵柳榕著 2020
- 《卓有成效的管理者 中英文双语版》(美)彼得·德鲁克许是祥译;那国毅审校 2019
- 《危险化学品经营单位主要负责人和安全生产管理人员安全培训教材》李隆庭,徐一星主编 2012
- 《中医女科十大名著 济阴纲目 大字本》(明)武之望著 2012
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《全国普通高等中医药院校药学类专业十三五规划教材 第二轮规划教材 分析化学实验 第2版》池玉梅 2018
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《高等数学试题与详解》西安电子科技大学高等数学教学团队 2019
- 《重庆市绿色建筑评价技术指南》重庆大学,重庆市建筑节能协会绿色建筑专业委员会主编 2018
- 《刘泽华全集 先秦政治思想史 下》刘泽华著;南开大学历史学院编 2019
- 《高等数学 上》东华大学应用数学系编 2019
- 《吃出健康来 胃肠病的饮食调养》上海市中医医院余莉芳老中医工作室,上海市中医医院脾胃病科 2019
- 《江苏中小企业生态环境评价报告》南京大学金陵学院企业生态研究中心 2019
- 《国学 第6集》四川师范大学中华传统文化学院四川省人民政府文史研究馆 2018
- 《西中有东》华大学国学院编;(美)包华石;王金凤译 2019
- 《江苏中小企业生态环境评价报告 2016》南京大学金陵学院企业生态研究中心 2017
- 《《经典释文》的特殊读音与普通话语音规范》陈会兵著 2019