第一章 引言 1
1.1 研究背景 1
1.1.1 基于文本的主题聚类 2
1.1.2 基于链接分析的主题聚类 3
1.1.3 基于复合网页特征的主题聚类 4
1.1.4 基于宏观网络拓扑结构的Web主题社区发现 5
1.1.5 基于Web访问日志的用户社区发现 6
1.1.6 基于Web主题图的信息浏览和检索可视化 7
1.2 研究意义 8
1.3 Web主题结构分析研究现状 9
1.3.1 Web显著性指标研究 9
1.3.2 基于学术Web的机构主题聚类研究 11
1.3.3 非学术Web空间的行业主题显著性研究 12
1.3.4 学术Web社区的地域影响因素研究 13
1.4 研究内容 13
第二章 Web主题结构挖掘相关算法 18
2.1 概述 18
2.2 Web搜索中的主题分析算法 19
2.2.1 主题敏感的PageRank 19
2.2.2 HITS 22
2.3 基于图的社区发现算法 24
2.3.1 Trawling 24
2.3.2 最大流算法 25
2.4 基于局部网络关系的社区发现算法 28
2.4.1 基于共链的社区发现 28
2.4.2 基于SNA的社区发现 31
2.5 基于复杂网络的社区发现算法 33
2.5.1 GN及其衍生算法 34
2.5.2 基于模块度优化的算法 36
2.5.3 派系过滤算法(CPM) 38
2.5.4 LPA算法 39
2.5.5 COPRA算法 41
2.5.6 SLPA算法 43
2.5.7 算法对比 44
2.6 小结 46
第三章 Web主题结构挖掘中的数据采集技术研究 47
3.1 相关研究 47
3.1.1 概述 47
3.1.2 搜索引擎 48
3.1.3 通用Web信息采集工具 51
3.1.4 自主开发的专用采集工具 52
3.2 数据采集模型与策略 55
3.2.1 数据采集模型 55
3.2.2 链接解析 57
3.2.3 链接统计规则 58
3.2.4 页面选择与链接分类 59
3.2.5 链接预测 61
3.3 Web数据采集系统的设计 65
3.3.1 总体架构 65
3.3.2 功能介绍 67
3.3.3 参数配置 69
3.3.4 任务监控 71
3.4 小结 72
第四章 学术Web宏观主题结构挖掘研究 74
4.1 概述 74
4.2 大学网站的链接特征 76
4.2.1 链接动机 76
4.2.2 链接集中规律 77
4.3 封闭样本的数据采集和结构分析技术研究 79
4.3.1 数据采集策略 79
4.3.2 基于k核的链接结构分析研究 81
4.3.3 基于复杂网络的链接结构挖掘研究 83
4.4 实验 84
4.4.1 样本选择 84
4.4.2 数据有效性分析 85
4.4.3 基于k核的社区发现结果分析 88
4.4.4 基于力导向的社区发现结果分析 89
4.4.5 基于复杂网络的社区发现结果分析和评测 90
4.4.6 结果对比 92
4.5 小结 94
第五章 多层次网络中的Web主题结构挖掘研究 96
5.1 概述 96
5.2 研究对象选择与数据预处理 97
5.2.1 样本选取 98
5.2.2 主题标注 100
5.2.3 网站域名识别 102
5.3 基于学院层面的主题显著度研究 107
5.3.1 基本数据特征 107
5.3.2 社区主题显著性评价指标 110
5.3.3 社区主题结构分析算法性能比较 111
5.3.4 社区主题结构分析结果 116
5.4 基于大学层面的主题显著度研究 117
5.4.1 基本网络特征 117
5.4.2 主题特征优化策略 118
5.4.3 不同阈值下的主题显著度分析 120
5.5 小结 121
第六章 多维度机构网络主题一致性比较研究 123
6.1 相关研究 123
6.2 数据采集与预处理 125
6.3 单一机构网络分析 126
6.3.1 引用网络分析 126
6.3.2 合著网络分析 128
6.4 机构网络主题一致性比较 130
6.5 小结 131
第七章 开放Web空间的主题结构挖掘研究 133
7.1 社区扩展相关算法 134
7.1.1 HITS 134
7.1.2 Companion和Companion- 136
7.1.3 基于网页的社区发现研究的不足 138
7.2 基于网站的社区扩展算法研究 139
7.2.1 算法设计 139
7.2.2 基于链接强度的样本选择规则 142
7.2.3 基于域名结构的样本选择规则 143
7.2.4 基于链接耦合的向下扩展 145
7.2.5 基于链接评估的向上扩展 147
7.3 基于开放集合的Web主题图实现框架和相关度评价 148
7.3.1 实现框架 148
7.3.2 社区成员相关度评价 151
7.4 实验 152
7.4.1 样本选择 152
7.4.2 数据采集与处理 154
7.4.3 基于核心扩展的Web主题图 157
7.4.4 基于二次扩展的Web主题图 160
7.4.5 多层次扩展的Web主题图结构对比 162
7.4.6 基于核心扩展的Web主题图评价 164
7.4.7 基于二次扩展的Web主题图评价 165
7.4.8 研究结果对比 166
7.5 小结 167
参考文献 169
附录 190