第1章 网络舆情概论 1
1.1网络舆情概述 1
1.1.1舆情与舆论 1
1.1.2网络舆情 2
1.1.3网络舆情演化 3
1.1.4网络舆情实例 5
1.2网络舆论空间治理 8
1.2.1网络炒作问题 8
1.2.2网络大V问题 9
1.2.3政务微博作用 10
1.3网络舆情传播平台 13
1.3.1微博网络 13
1.3.2网络论坛 15
1.4网络舆情分析技术 16
1.4.1网络舆情监测系统 16
1.4.2网络信息采集技术 17
1.4.3话题检测与跟踪技术 20
1.4.4文本情感分析技术 22
第2章 网络信息采集技术 25
2.1引言 25
2.2搜索引擎概念 25
2.2.1通用搜索引擎 25
2.2.2主题搜索引擎 27
2.3网络蜘蛛概念 29
2.3.1基本概念 29
2.3.2通用蜘蛛 29
2.3.3主题蜘蛛 32
2.4网页搜索算法 34
2.4.1网页特征选取 34
2.4.2网页搜索算法 36
2.4.3链接分级搜索 41
2.5网页相似度计算 43
2.5.1向量空间模型 44
2.5.2相似度计算 45
2.6主题蜘蛛组成 48
2.6.1系统结构 48
2.6.2主题确立模块 49
2.6.3爬行模块 49
2.6.4相似度计算模块 53
2.6.5搜索策略模块 53
2.6.6系统界面 54
第3章 微博网络信息传播机制 56
3.1引言 56
3.2微博用户转发特性 57
3.2.1转发行为特性 57
3.2.2转发特性分析 61
3.3微博转发行为预测 66
3.3.1预测算法 66
3.3.2算法验证 72
3.4微博转发峰值分析 76
3.4.1时间序列概念 76
3.4.2峰值特性分析 77
3.5微博意见领袖识别 87
3.5.1识别方法 87
3.5.2算法验证 89
第4章 网络论坛舆情传播机制 94
4.1引言 94
4.2网络论坛舆情形成模型 95
4.2.1网络论坛结构 95
4.2.2舆情形成模型 96
4.2.3模型验证 98
4.3网络论坛意见领袖识别 100
4.3.1论坛有向网络图模型 101
4.3.2论坛意见领袖识别算法 102
4.3.3算法验证 103
4.4网络水军热帖检测 106
4.4.1热点话题特征提取 107
4.4.2水军热帖检测算法 110
4.4.3算法验证 110
4.5网络水军账号检测 112
4.5.1检测算法 113
4.5.2算法验证 116
第5章 话题检测与跟踪技术 119
5.1引言 119
5.2基本概念 120
5.2.1 TDT目标和任务 120
5.2.2 TDT语料 122
5.2.3 TDT评价指标 122
5.3相关技术 124
5.3.1表示模型 124
5.3.2相似度计算 125
5.3.3特征项选取 126
5.3.4文本聚类 127
5.3.5文本分类 130
5.4话题检测算法 133
5.4.1 K-MEANS算法 133
5.4.2模糊聚类方法 135
5.4.3蚁群聚类算法 138
5.4.4算法验证 139
5.5话题跟踪算法 145
5.5.1 KNN算法及改进 145
5.5.2算法验证 146
5.6热点话题检测 148
5.6.1检测方法 148
5.6.2算法验证 151
第6章 文本分割技术 155
6.1引言 155
6.2基本概念 156
6.2.1文本分割点 156
6.2.2文本分割方法 157
6.2.3文本分割算法评价 159
6.3基于LDA模型的文本分割 161
6.3.1 LDA模型 161
6.3.2 LDA模型改进 165
6.3.3相似度计算 167
6.3.4边界识别策略 168
6.3.5算法验证 169
6.4基于VSM模型的文本分割 174
6.4.1特征项选取 174
6.4.2语义段分割方法 176
6.4.3算法验证 179
第7章 文本情感分析技术 181
7.1引言 181
7.2基本概念 182
7.2.1文本情感分析层次 182
7.2.2文本情感分析方法 184
7.2.3语言建模方法 184
7.3句子情感分析方法 185
7.3.1主题句识别方法 185
7.3.2主观句识别方法 189
7.3.3主观关系识别方法 192
7.3.4算法验证 195
7.4段落情感分析方法 198
7.4.1语义段句子情感标注 199
7.4.2语义段句子权重计算 199
7.4.3语义段情感计算方法 200
7.4.4算法验证 202
7.5文本情感分析模型 205
7.5.1文本情感模型 205
7.5.2模型参数估计 208
7.5.3语言模型评价 209
7.5.4算法验证 211
参考文献 214