第1章 概述 1
1.1 实体识别问题的提出 1
1.2 实体识别研究的发展历史 2
1.3 实体识别问题的描述 4
1.4 实体识别的处理流程 6
1.5 实体识别的挑战 6
1.5.1 相似度衡量问题 7
1.5.2 计算效率问题 7
1.5.3 机器学习方法的应用问题 8
1.5.4 关联对象的识别问题 8
1.5.5 一些新的挑战 9
1.5.6 实体识别评估 10
1.6 实体识别的应用 10
1.6.1 医疗卫生 10
1.6.2 人口普查 11
1.6.3 客户关系管理 12
1.6.4 网购比价 13
1.6.5 犯罪及欺诈侦查 13
1.6.6 关联的开放数据 14
1.6.7 引文数据库 15
1.7 本章小结 17
参考文献 17
第2章 相似度计算算法 22
2.1 基于字段的相似度算法 22
2.1.1 Jaccard相似度算法 22
2.1.2 基于TF-IDF的相似度算法 23
2.1.3 基于q-grams的相似度算法 24
2.2 基于编辑距离的相似度算法 25
2.2.1 Levenshtein距离算法 25
2.2.2 Jaro和Jaro-Winkler距离算法 26
2.3 混合的相似度算法 27
2.3.1 扩展的Jaccard相似度算法 27
2.3.2 Monge-Elkan相似度算法 29
2.3.3 Soft TF-IDF相似度算法 29
2.4 数值型数据相似度算法 31
2.4.1 数字型相似度算法 31
2.4.2 日期型相似度算法 32
2.4.3 价格型相似度算法 32
2.5 本章小结 33
参考文献 33
第3章 实体识别的分块技术 35
3.1 引言 35
3.1.1 数据分块技术的应用 35
3.1.2 实体识别数据分块问题定义与算法分类 38
3.2 分块键 39
3.2.1 分块键的定义 39
3.2.2 分块键的编码 44
3.3 基于等值匹配的分块算法 45
3.3.1 标准分块方法 46
3.3.2 基于学习的分块键定义 48
3.4 基于相似性的分块算法 50
3.4.1 基于排序的分块方法 51
3.4.2 基于字符串分割的分块方法 54
3.4.3 基于MinHash的分块方法 58
3.4.4 基于Canopy聚类的分块方法 61
3.4.5 基于前缀过滤的分块方法 64
3.5 本章小结 69
参考文献 69
第4章 基于机器学习的实体识别方法 72
4.1 基于分类器的实体识别方法 72
4.1.1 基于决策树的实体识别方法 73
4.1.2 基于贝叶斯分类器的实体识别方法 76
4.1.3 基于SVM的实体识别方法 79
4.1.4 基于主动学习的实体识别方法 84
4.1.5 其他方法 87
4.2 基于概率图模型的实体识别方法 88
4.2.1 基于马尔可夫逻辑网络的实体识别方法 89
4.2.2 基于条件随机场的实体识别方法 93
4.3 本章小结 97
参考文献 97
第5章 基于关系的实体识别方法 100
5.1 引言 100
5.2 联合式实体识别方法 101
5.2.1 基于关系聚类的联合式实体识别方法 102
5.2.2 复杂信息空间中的联合式实体识别方法 108
5.3 基于实体关系的消歧方法 118
5.3.1 基于社交关系的名字消歧方法 119
5.3.2 基于实体关系的实体消歧方法 122
5.3.3 基于异构实体关系的实体消歧方法 133
5.4 本章小结 140
参考文献 141
第6章 新型的实体识别技术 143
6.1 引言 143
6.2 基于时间模型的实体识别技术 144
6.2.1 一个实例 145
6.2.2 时间模型 146
6.2.3 基于时间模型的实体识别算法 161
6.3 基于众包的实体识别技术 170
6.3.1 一个实例 171
6.3.2 基于众包的实体识别框架 172
6.3.3 基于众包的实体识别的核心问题 174
6.3.4 基于众包的实体识别方法的特点 177
6.4 隐私保护下的实体识别技术 178
6.4.1 实体匹配中隐私保护的分类 179
6.4.2 实体识别隐私保护算法的评估 182
6.5 本章小结 184
参考文献 184
第7章 实体识别评估 187
7.1 基于记录对的精确性评价——准确率、召回率和F测度 187
7.2 分块技术评价 189
7.3 常用数据集 190
7.3.1 真实数据集 190
7.3.2 数据生成工具 191
7.4 本章小结 192
参考文献 192
第8章 总结与展望 193
8.1 实体识别研究总结 193
8.2 新型实体识别研究展望 195
8.2.1 基于时间模型的实体识别 195
8.2.2 基于众包的实体识别 196
8.2.3 隐私保护下的实体识别 197
8.3 研究挑战 198