《大数据管理丛书 实体识别技术》PDF下载

  • 购买积分:9 如何计算积分?
  • 作  者:申德荣,寇月,于戈等编著
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2017
  • ISBN:9787111581611
  • 页数:199 页
图书介绍:本书核心介绍实体识别技术,拟结合作者这几年的研究工作,从多角度阐述实体识别技术,主要包括基于关系的实体记录识别技术、分布的实体识别技术、基于时间的实体识别技术、隐私保护下的实体识别技术和研究展望。本书适合数据集成等方向的研究生阅读,也能为相关领域研究人员和开发人员提供重要参考。

第1章 概述 1

1.1 实体识别问题的提出 1

1.2 实体识别研究的发展历史 2

1.3 实体识别问题的描述 4

1.4 实体识别的处理流程 6

1.5 实体识别的挑战 6

1.5.1 相似度衡量问题 7

1.5.2 计算效率问题 7

1.5.3 机器学习方法的应用问题 8

1.5.4 关联对象的识别问题 8

1.5.5 一些新的挑战 9

1.5.6 实体识别评估 10

1.6 实体识别的应用 10

1.6.1 医疗卫生 10

1.6.2 人口普查 11

1.6.3 客户关系管理 12

1.6.4 网购比价 13

1.6.5 犯罪及欺诈侦查 13

1.6.6 关联的开放数据 14

1.6.7 引文数据库 15

1.7 本章小结 17

参考文献 17

第2章 相似度计算算法 22

2.1 基于字段的相似度算法 22

2.1.1 Jaccard相似度算法 22

2.1.2 基于TF-IDF的相似度算法 23

2.1.3 基于q-grams的相似度算法 24

2.2 基于编辑距离的相似度算法 25

2.2.1 Levenshtein距离算法 25

2.2.2 Jaro和Jaro-Winkler距离算法 26

2.3 混合的相似度算法 27

2.3.1 扩展的Jaccard相似度算法 27

2.3.2 Monge-Elkan相似度算法 29

2.3.3 Soft TF-IDF相似度算法 29

2.4 数值型数据相似度算法 31

2.4.1 数字型相似度算法 31

2.4.2 日期型相似度算法 32

2.4.3 价格型相似度算法 32

2.5 本章小结 33

参考文献 33

第3章 实体识别的分块技术 35

3.1 引言 35

3.1.1 数据分块技术的应用 35

3.1.2 实体识别数据分块问题定义与算法分类 38

3.2 分块键 39

3.2.1 分块键的定义 39

3.2.2 分块键的编码 44

3.3 基于等值匹配的分块算法 45

3.3.1 标准分块方法 46

3.3.2 基于学习的分块键定义 48

3.4 基于相似性的分块算法 50

3.4.1 基于排序的分块方法 51

3.4.2 基于字符串分割的分块方法 54

3.4.3 基于MinHash的分块方法 58

3.4.4 基于Canopy聚类的分块方法 61

3.4.5 基于前缀过滤的分块方法 64

3.5 本章小结 69

参考文献 69

第4章 基于机器学习的实体识别方法 72

4.1 基于分类器的实体识别方法 72

4.1.1 基于决策树的实体识别方法 73

4.1.2 基于贝叶斯分类器的实体识别方法 76

4.1.3 基于SVM的实体识别方法 79

4.1.4 基于主动学习的实体识别方法 84

4.1.5 其他方法 87

4.2 基于概率图模型的实体识别方法 88

4.2.1 基于马尔可夫逻辑网络的实体识别方法 89

4.2.2 基于条件随机场的实体识别方法 93

4.3 本章小结 97

参考文献 97

第5章 基于关系的实体识别方法 100

5.1 引言 100

5.2 联合式实体识别方法 101

5.2.1 基于关系聚类的联合式实体识别方法 102

5.2.2 复杂信息空间中的联合式实体识别方法 108

5.3 基于实体关系的消歧方法 118

5.3.1 基于社交关系的名字消歧方法 119

5.3.2 基于实体关系的实体消歧方法 122

5.3.3 基于异构实体关系的实体消歧方法 133

5.4 本章小结 140

参考文献 141

第6章 新型的实体识别技术 143

6.1 引言 143

6.2 基于时间模型的实体识别技术 144

6.2.1 一个实例 145

6.2.2 时间模型 146

6.2.3 基于时间模型的实体识别算法 161

6.3 基于众包的实体识别技术 170

6.3.1 一个实例 171

6.3.2 基于众包的实体识别框架 172

6.3.3 基于众包的实体识别的核心问题 174

6.3.4 基于众包的实体识别方法的特点 177

6.4 隐私保护下的实体识别技术 178

6.4.1 实体匹配中隐私保护的分类 179

6.4.2 实体识别隐私保护算法的评估 182

6.5 本章小结 184

参考文献 184

第7章 实体识别评估 187

7.1 基于记录对的精确性评价——准确率、召回率和F测度 187

7.2 分块技术评价 189

7.3 常用数据集 190

7.3.1 真实数据集 190

7.3.2 数据生成工具 191

7.4 本章小结 192

参考文献 192

第8章 总结与展望 193

8.1 实体识别研究总结 193

8.2 新型实体识别研究展望 195

8.2.1 基于时间模型的实体识别 195

8.2.2 基于众包的实体识别 196

8.2.3 隐私保护下的实体识别 197

8.3 研究挑战 198