第1章 绪论 1
1.1 研究背景和意义 1
1.2 数据空间概述 2
1.2.1 数据空间的概念 2
1.2.2 数据空间的特性 4
1.3 国内外研究现状 7
1.4 研究内容 8
第2章 以实体为中心的分层的图数据模型 11
2.1 引言 11
2.2 相关工作 12
2.2.1 数据模型 12
2.2.2 索引机制 13
2.3 分层的图数据模型lgDM 14
2.3.1 实体关联数据图 16
2.3.2 实体关联模式图 17
2.3.3 数据图转换成模式图 18
2.4 模型的权重设置 20
2.4.1 模式图Gs的权重设置 20
2.4.2 数据图GD的权重设置 21
2.5 数据的索引结构 21
2.5.1 实体类属性索引 22
2.5.2 关联关系映射索引 22
2.5.3 属性值倒排索引 23
2.6 模型的查询能力 23
2.6.1 谓词查询 23
2.6.2 近邻查询 24
2.6.3 关联查询 24
2.6.4 元数据谓词查询 24
2.6.5 元数据关联路径查询 25
2.7 实验评价 25
2.7.1 实验数据集 25
2.7.2 实验结果与分析 26
第3章 基于聚类的实体关联关系挖掘算法 30
3.1 引言 30
3.2 相关工作 31
3.3 实体关联关系构建模型 33
3.3.1 实体关联关系构建的生命周期 33
3.3.2 关联关系约束验证 34
3.4 实体关联关系挖掘的基本算法CRQ4A 36
3.4.1 问题定义 36
3.4.2 难点和挑战 37
3.4.3 CRQ4A概览 38
3.5 实体关联关系挖掘的改进算法CFRQ4A 44
3.5.1 CFRQ4A概览 44
3.5.2 候选关联实体对过滤 45
3.6 实验评价 46
3.6.1 实验数据集 46
3.6.2 实验结果与分析 46
第4章 基于时间的集合式实体识别算法 52
4.1 引言 52
4.2 相关工作 56
4.2.1 实体识别概览 56
4.2.2 分块技术 58
4.2.3 集合式实体识别 59
4.2.4 时间记录识别 60
4.3 具有时间信息实体的集合式实体识别 60
4.3.1 问题定义 61
4.3.2 难点和挑战 61
4.3.3 T-CER概览 62
4.4 基于时间演化的聚类算法TE-Clustering 67
4.4.1 相似度度量方法 68
4.4.2 TE-Clustering算法流程 73
4.5 集合式实体识别的识别顺序 75
4.6 实验评价 77
4.6.1 实验数据集 77
4.6.2 评价指标 77
4.6.3 实验结果与分析 78
第5章 时间感知的查询时实体识别与数据融合 84
5.1 引言 84
5.2 相关工作 85
5.2.1 实时、查询时实体识别 85
5.2.2 数据融合 86
5.3 TQ-ER框架 87
5.3.1 相关定义 87
5.3.2 框架概览 88
5.4 时间感知的实体识别 88
5.4.1 候选实体集生成迭代算法 89
5.4.2 时态相似性 90
5.4.3 时间感知的聚类算法 90
5.5 时间感知的数据融合 92
5.5.1 相关定义 92
5.5.2 数据融合与冲突消解规则 92
5.6 实验评价 93
第6章 基于关联关系的关键字查询意图消歧算法 96
6.1 引言 96
6.2 相关工作 98
6.2.1 关键字查询 98
6.2.2 关键字查询翻译(转换) 99
6.3 三步骤的关键字查询意图消歧算法 100
6.3.1 关键字语义项映射 101
6.3.2 目标实体类识别 107
6.3.3 候选查询集生成 111
6.4 实验评价 113
6.4.1 实验数据集 113
6.4.2 实验查询集 113
6.4.3 实验结果与分析 114
第7章 KeymanticES语义实体搜索原型系统的设计与实现 118
7.1 引言 118
7.2 相关工作 119
7.2.1 数据空间中的查询技术 119
7.2.2 实体搜索 119
7.3 KeymanticES的系统设计 121
7.3.1 问题定义 121
7.3.2 系统设计目标 121
7.3.3 KeymanticES概览 122
7.4 KeymanticES的系统实现 123
7.4.1 系统开发环境 123
7.4.2 实体关联关系挖掘的实现 123
7.4.3 实体识别的实现 124
7.4.4 关键字查询意图消歧的实现 125
7.5 实验评价 126
7.5.1 实验设置 127
7.5.2 实验结果与分析 127
参考文献 130