第1章 姓名消歧综述 1
1.1 姓名歧义现象 1
1.2 姓名歧义带来的挑战 2
1.3 著者姓名歧义问题 4
1.4 研究意义 10
1.5 国内外研究现状 11
1.5.1 姓名消歧研究的来源 11
1.5.2 网页人名消歧的研究现状 13
1.5.3 著者姓名消歧的研究现状 15
1.6 本章小结 20
第2章 著者姓名消歧方法分类及研究综述 21
2.1 著者姓名消歧方法分类 21
2.2 人工著者姓名消歧方法 21
2.3 基于规则的著者姓名消歧方法 22
2.3.1 基于规则和阈值的姓名消歧方法 22
2.3.2 基于相似度打分表的姓名消歧方法 24
2.4 基于机器学习的著者姓名消歧方法 24
2.4.1 基于监督学习的姓名消歧方法 25
2.4.2 基于无监督学习的姓名消歧方法 27
2.4.3 基于半监督学习的姓名消歧方法 29
2.5 基于语义指纹的著者姓名消歧方法 30
2.6 基于唯一标识的著者姓名消歧方法 31
2.7 其他著者姓名消歧方法 33
2.7.1 基于社会网络的姓名消歧方法 34
2.7.2 基于网络知识资源的姓名消歧方法 34
2.8 现有方法对比分析 35
2.9 本章小结 38
第3章 姓名消歧相关的评测 39
3.1 WePS网页人物搜索评测 39
3.1.1 WePS-1 40
3.1.2 WePS-2 45
3.1.3 WePS-3 56
3.2 PatentsView专利发明人姓名消歧评测 63
3.2.1 数据 63
3.2.2 评价指标 72
3.2.3 竞赛结果 75
3.3 TAC KBP命名实体消歧评测 77
3.4 中文姓名消歧评测 78
3.4.1 2010年中文人名消歧评测 78
3.4.2 2012年中文人名消歧竞赛 79
3.5 本章小结 80
第4章 研究者标识系统 81
4.1 背景 81
4.2 国内外现状与本研究实施技术路线 82
4.2.1 国内外现状 82
4.2.2 实施技术路线 83
4.3 研究者标识系统案例 83
4.3.1 Research ID 83
4.3.2 ORCID 85
4.3.3 研究者名称解析系统 86
4.4 研究者信息系统整合案例 89
4.4.1 Researcher ID与ORCID 89
4.4.2 研究者名称解析系统与ORCID 89
4.5 中国研究者标识系统的应用设计 92
4.5.1 中国研究者标识系统框架设计 92
4.5.2 中国研究者标识系统与ORCID整合设计 93
4.5.3 中国研究者标识系统建设需要注意的问题 93
4.6 本章小结 95
第5章 语义指纹姓名消歧的基础理论 96
5.1 信息指纹 96
5.2 哈希函数 97
5.2.1 Rabin哈希函数 98
5.2.2 SDBM哈希函数 98
5.2.3 MD5哈希函数 98
5.2.4 SHA-1哈希函数 99
5.2.5 哈希函数对比 100
5.3 语义指纹介绍 100
5.3.1 语义指纹的概念 100
5.3.2 语义指纹的研究现状 101
5.3.3 语义指纹的应用 103
5.3.4 主要语义指纹算法 104
5.4 主要文本相似度计算方法 113
5.4.1 基于向量空间模型的相似度计算方法 113
5.4.2 基于字符串匹配的相似度计算方法 114
5.4.3 文本相似度计算方法比较 115
5.5 主要聚类算法 116
5.5.1 K-means聚类 116
5.5.2 层次聚类 117
5.5.3 图聚类 119
5.5.4 DBSCAN算法 120
5.5.5 聚类算法对比 122
5.6 本章小结 122
第6章 基于语义指纹的论文著者姓名消歧 124
6.1 引言 124
6.1.1 研究背景 124
6.1.2 研究意义 126
6.1.3 主要研究内容 126
6.2 方法 127
6.2.1 方法的原理 128
6.2.2 PDF2TXT 129
6.2.3 指纹生成器 129
6.2.4 指纹比较器 130
6.2.5 认领决策器 131
6.2.6 作品指派器 132
6.2.7 争议仲裁器 133
6.3 评价指标 134
6.4 实验结果 136
6.4.1 实验数据集构建 136
6.4.2 数据预处理 138
6.4.3 姓名消歧特征选择及独立特征姓名消歧实验 142
6.4.4 基于语义指纹的综合特征姓名消歧实验 151
6.5 本章小结 153
6.5.1 技术内涵 154
6.5.2 可能的应用 154
6.5.3 研究限制 154
6.5.4 未来研究方向 155
第7章 基于语义指纹的专利发明人姓名消歧 157
7.1 引言 157
7.1.1 研究背景 157
7.1.2 研究意义 160
7.1.3 主要研究内容 160
7.2 专利发明人姓名消歧方法 161
7.2.1 总体架构 161
7.2.2 数据获取 162
7.2.3 数据规范化 165
7.2.4 特征提取 166
7.2.5 语义指纹生成 167
7.2.6 分块策略设计 169
7.2.7 参数估计 171
7.2.8 实验步骤 171
7.2.9 小结 172
7.3 评价指标 172
7.4 专利发明人姓名消歧实验 174
7.4.1 数据处理 174
7.4.2 实验结果及讨论 179
7.4.3 小结 184
7.5 本章小结 184
7.5.1 主要研究结论 184
7.5.2 研究局限性 185
7.5.3 未来研究方向 186
第8章 总结及展望 188
8.1 总结 188
8.2 展望 191
参考文献 194