1 引言 1
1.1 本体技术研究的热点分析 2
1.1.1 本体技术领域的热点分布 4
1.1.2 国内本体项目的研究重点 9
1.2 本体技术相关研究进展 10
1.2.1 语义网(Semantic Web) 11
1.2.2 个性化服务中的本体应用 11
1.2.2.1 个性化用户模型研究 11
1.2.2.2 基于本体的个性化方法研究 13
1.2.2.3 个性化技术应用与实证研究 15
1.2.3 大规模知识库建设 18
1.2.4 本体匹配与映射 20
1.2.5 本体集成与知识融合 21
1.2.6 本体的基础理论研究 22
1.2.7 重要机构从事本体项目研究现状综述 23
1.2.7.1 国外机构研究现状 23
1.2.7.2 国内研究机构现状 26
1.2.8 对国内外研究现状的总体认识 32
1.3 研究内容与思路 33
2 本体技术研究的热点领域理论分析(上) 36
2.1 本体学习 37
2.1.1 本体学习的定义 37
2.1.2 本体学习的工具和方法 39
2.1.3 本体学习的研究热点 42
2.2 本体匹配 43
2.2.1 本体匹配和本体误匹配 43
2.2.2 本体匹配的工具和方法 47
2.2.2.1 GLUE 47
2.2.2.2 语义匹配(Semantic Matching) 49
2.2.3 本体匹配的研究热点 51
2.3 本体映射 53
2.3.1 本体映射的定义 53
2.3.2 本体映射的过程 53
2.3.3 本体映射的工具和方法 55
2.3.3.1 MAFRA 55
2.3.3.2 RDFT 61
2.3.3.3 PRIOR+ 63
2.4 本体融合 64
2.4.1 本体融合的定义 64
2.4.2 本体融合的工具和方法 65
2.4.2.1 PROMPT 65
2.4.2.2 HCONE 67
2.4.2.3 OntoMerge 69
2.5 本体调节 70
2.5.1 本体调节的定义 70
2.5.2 本体调节的工具 70
2.6 本体校验 71
2.6.1 本体校验的定义 71
2.6.2 本体校验的方法和工具 72
2.7 本体进化 73
3 本体技术研究的热点领域理论分析(下) 76
3.1 本体评价 76
3.2 本体技术的标准化 77
3.2.1 相关概念 77
3.2.2 从事本体技术标准化工作的标准制定组织及其项目 78
3.2.2.1 国际标准化组织/国际电工委员会(ISO/IEC) 79
3.2.2.2 对象管理组织(OMG) 80
3.2.2.3 美国国家标准学会本体标准特别工作组(ANSI Ad Hoc Group on Ontology Standards) 81
3.2.2.4 数字企业研究院(DERI) 82
3.2.2.5 电气和电子工程师协会(IEEE) 82
3.2.2.6 万维网联盟(W3C) 85
3.2.3 ISO认可的本体表示语言 86
3.2.4 Web Service Ontology 87
3.2.4.1 OWL-S 87
3.2.4.2 SWSF 88
3.2.4.3 WSMO 88
3.2.4.4 比较 89
3.2.5 结语 90
3.3 网络标注 90
3.3.1 几种主要网络标注方法 91
3.3.1.1 传统的网络标注方法 91
3.3.1.2 大众标注 92
3.3.1.3 语义标注 95
3.3.2 比较分析 100
3.3.3 评价 101
3.4 关于本体的基础理论 101
4 关于顶级本体的理论与实践研究 104
4.1 概念的领域属性 104
4.1.1 问题的提出 104
4.1.2 领域本体(DO)中概念的领域属性 106
4.1.3 领域本体中的概念 107
4.1.3.1 绝对无关概念 108
4.1.3.2 通用概念 108
4.1.3.3 相关概念 108
4.1.3.4 核心概念 109
4.1.4 领域属性的应用——在基于农业初级本体的农业科技文献信息检索中的示例 109
4.1.5 “领域属性”解决的问题 109
4.1.6 结语 112
4.2 顶级本体的比较研究 112
4.2.1 BWW体系 113
4.2.2 Dolce体系 122
4.2.3 BWW本体和Dolce本体的比较 124
4.2.4 利用形式化顶级本体的益处 125
4.2.5 顶级本体的评估 126
4.2.5.1 开放许可度 126
4.2.5.2 结构化 126
4.2.5.3 成熟度 127
4.3 顶级本体的OWL转化研究 128
4.3.1 转换的规则和方法 129
4.3.2 SUMO顶级本体的转换 129
4.3.2.1 类定义的调整 130
4.3.2.2 属性定义的调整 132
4.3.2.3 实例定义的调整 136
4.3.3 OpenCyc顶级本体的转换 137
4.3.4 结语 140
5 海量知识的管理方法研究——知识领域建模 141
5.1 问题的提出 141
5.1.1 信息系统与知识 141
5.1.2 知识的抽象层次 142
5.1.3 管理未经充分整理的知识 149
5.1.4 满足有效推理的需要 150
5.1.5 知识库逐步完善的动态过程 152
5.2 知识领域模型 153
5.2.1 知识网络与知识距离 153
5.2.2 知识运用的局部性与领域范围 155
5.2.3 知识抽象层次与知识领域结构 156
5.2.4 知识的“普遍-专门”联系与知识领域结构 159
5.2.5 知识领域的内容 161
5.2.6 知识领域边界与跨领域使用知识的方法 163
5.2.7 知识领域建模 164
5.2.7.1 知识领域模型的构成 164
5.2.7.2 知识领域模型推演 166
5.2.7.3 模型的知识领域与时空尺度 167
5.3 知识领域模型的软件实现 169
5.3.1 知识领域的表示方法 169
5.3.2 知识活性、领域优先级以及知识信任度 169
5.3.3 领域范围的动态计算及领域内容的存取 171
5.3.4 领域关系的设定与自动发现 173
5.3.5 模型的管理和使用 175
5.3.5.1 模型的管理 175
5.3.5.2 模型的使用 176
5.3.5.3 模型的存储与复用 178
5.3.6 跨领域逻辑推理 178
5.3.7 知识库的使用 179
6 大规模本体开发环境原型系统(LODE)的开发与应用 182
6.1 知识开发方法 182
6.1.1 知识的来源 182
6.1.1.1 利用现有的词表转换 182
6.1.1.2 从文档内容中半自动构建本体 182
6.1.1.3 从数据库自动构建本体 183
6.1.1.4 领域专家手工开发和维护本体 184
6.1.2 基本方法与流程 185
6.1.3 需求分析与测试 193
6.1.4 知识开发任务 197
6.1.5 项目组织与管理 198
6.1.6 知识配置管理 199
6.1.7 开发工作的软件环境与工具 202
6.2 LODE原型系统的研发 203
6.2.1 建立LODE系统的目的和基本思路 203
6.2.2 LODE系统客户端 204
6.2.2.1 知识领域管理模块 205
6.2.2.2 知识本体编辑模块 207
6.2.2.3 管理领域词汇 213
6.2.2.4 文档管理与标引模块 215
6.2.3 LODE系统服务器端 220
6.23.1 知识集中存储 220
6.2.3.2 按照知识领域模型管理知识 222
6.2.3.3 知识版本与配置管理 223
6.2.3.4 数据库设计与实现 224
6.2.3.5 语义关系数据操作与知识建模 225
6.2.3.6 其他辅助功能 226
6.3 LODE客户端与现有系统的比较 227
6.3.1 LODE客户端与GATE信息抽取系统的比较 227
6.3.2 LODE客户端与Protégé-OWL的比较分析 229
6.3.3 LODE的应用前景 232
6.4 LODE检索系统 234
6.4.1 知识网络构建及匹配 234
6.4.1.1 知识网络基本原理——无标度六度分隔网络假设 234
6.4.1.2 最小知识网络匹配法 235
6.4.1.3 从检索条件提取知识网络 235
6.4.1.4 几种不同的匹配等级 236
6.4.2 检索系统功能及试验 237
6.4.2.1 文档内容自动标引 237
6.4.2.2 知识领域及知识元素的选择 238
6.4.2.3 生成概念间的关系图 240
6.4.2.4 检索结果的排序比较 241
6.4.2.5 检索试验 241
6.4.3 结语 243
7 结论 244
7.1 研究中存在的问题 245
7.2 后续的研究内容 245
参考文献 247
附录:LODE 1.0使用说明 265
图1.1 “按时间筛选”以“ontology”为检索关键词得到的文献记录数 3
图1.2 Google截图〔2008年10月28日晚,检索关键词“ontology”〕 4
图1.3 Google截图〔2008年10月28日晚,检索关键词“本体”〕 5
图1.4 Google截图〔2008年10月28日晚,检索关键词“本体”+空格〕 6
图1.5 Google截图〔2008年10月28日晚,检索关键词“本体论”〕 7
图1.6 从Google自动匹配标签中得到的本体领域研究热点结果显示数量排序 8
图1.7 本研究的技术路线 35
图2.1 关于本体构建与应用的螺旋式上升模式 36
图2.2 本体学习工具的基本框架 39
图2.3 本体映射(ontology mapping)的过程 54
图2.4 MAFRA工具包系统结构 56
图2.5 MAFRA内部概念结构 57
图2.6 利用RDF的双层集成XML目录 61
图2.7 PRIOR+的系统构架 63
图2.8 PROMPT工具包基础框架和工具间的交互作用 66
图3.1 本体技术标准化领域现状 78
图3.2 利用Protégé—2000实现的SUMO概念树状结构 83
图3.3 开发本体生命周期中的各项工作(IEEE 1074—1995标准—软件开发生命周期法) 84
图3.4 Web Service Ontology图示 88
图3.5 del.icio.us标签云(按字母顺序排列) 94
图3.6 本体相关技术间的关联示意——关于本体的基础理论 102
图3.7 本体工程和本体利用间的反馈机制 103
图4.1 概念“花卉”在Cyc顶级本体中的上位类结构 107
图4.2 石榴检索示例 110
图4.3 “植物”的领域属性图示 111
图4.4 一个精确的订单加工系统片段 117
图4.5 购买和供应系统相互作用 119
图4.6 Dolce本体的结构 122
图4.7 定义一个类同时是另外一个类的实例 130
图4.8 注释掉类同时是实例的声明和标准构词的替换 130
图4.9 与OWL标准构词含义相同的词汇定义 131
图4.10 类的定义中包含自定义的属性陈述 131
图4.11 属性是类的实例并与其他类和属性间存在关系 132
图4.12 属性是类的实例并与实例之间存在关系 133
图4.13 inverse属性的定义 133
图4.14 使用标准构词替换inverse及属性类型的调整 133
图4.15 定义属性值域取值是类 134
图4.16 使用rangeSubclass声明属性的值域 134
图4.17 将数据类型属性调整为对象类型属性 135
图4.18 使用标准数据类型替换自定义数据类型 135
图4.19 缺失实例所属的类的声明 136
图4.20 subAttribute属性的定义 136
图4.21 增补实例所属的类的声明 137
图4.22 增补的属性定义 137
图4.23 OpenCyc中类定义示例 138
图4.24 guid属性的定义 138
图4.25 标识类及关联属性定义 139
图4.26 调整后的类定义及标识实例定义 139
图5.1 高阶理论中模型与低价理论内容的映射关系 148
图6.1 人类知识结构发展树形结构 186
图6.2 LODE系统设计基本思路 204
图6.3 LODE系统客户端示意 205
图6.4 知识领域示意 206
图6.5 LODE知识领域管理界面 207
图6.6 LODE选择知识领域界面 208
图6.7 LODE本体编辑界面 209
图6.8 LODE创建知识对象窗口 209
图6.9 LODE类编辑界面 210
图6.10 LODE值属性编辑界面 211
图6.11 LODE对象属性编辑界面 212
图6.12 LODE个体编辑界面 213
图6.13 LODE浏览领域词汇表 214
图6.14 LODE词汇编辑界面 214
图6.15 LODE导入文档界面 215
图6.16 LODE自动处理文档结果界面 216
图6.17 LODE打开文档界面 217
图6.18 LODE查找文档界面 218
图6.19 LODE“定义词语”功能 219
图6.20 LODE知识库分级管理模式 221
图6.21 描述领域关系的知识本体 223
图6.22 GATE插件:“Jena ontology tool” 229
图6.23 GATE 3.1-Betal版本的标引分析 230
图6.24 文档预处理测试界面 238
图6.25 选择知识领域和知识元素 239
图6.26 生成概念间最大关系 240
图6.27 生成概念间最小关系 241
图6.28 检索结果排序显示界面 242
彩图1 LODE经过原型系统自动标引后的文献内容页面彩图2 LODE“取消词语”功能彩图3 LODE“标记概念”功能彩图4 LODE“文心兰属”被标记为概念表1.1 利用中文科技期刊数据库进行本体相关研究文献检索结果 2
表1.2 利用“按时间筛选结果”显示中文科技期刊数据库反馈记录 3
表1.3 近年来自然科学基金项目中和本体相关的项目 9
表2.1 HCONE系统关键特征和功能 68
表3.1 WSMO、SWSF和OWL-S间的特征比较 89
表3.2 代表性社会书签工具的特点 93
表3.3 对基于本体的语义标注工具的比较 100
表4.1 分析文献题名“云南省香荚兰生产的发展前景”中的术语组成(之一) 106
表4.2 分析文献题名“云南省香荚兰生产的发展前景”中的术语组成(之二) 106
表6.1 GATE和LODE原型系统的比较 228
表6.2 检索结果排序比较 243