当前位置:首页 > 文化科学教育体育
XML文档全文检索的理论与方法
XML文档全文检索的理论与方法

XML文档全文检索的理论与方法PDF电子书下载

文化科学教育体育

  • 电子书积分:9 积分如何计算积分?
  • 作 者:夏立新等著
  • 出 版 社:北京:科学出版社
  • 出版年份:2011
  • ISBN:9787030319708
  • 页数:171 页
图书介绍:本著作系统归纳总结了文档的特征及其描述方法,深入剖析了XML文档的组织和结构,重点分析了基于XML文档的结构索引的方法、特点及优势,探讨了实现内容+结构(ContentandStructure,CAS)的信息检索方法,并以检索实验系统Okapi为例,探讨了如何改进传统信息检索系统的索引结构以适应XML检索的需要。研究过程中所开发的实现XML文档全文检索的原型系统是一种松散的系统架构,各个子模块之间的相互依赖性低,有利于以后的修改和升级,易于被其他应用系统整合,其具有良好的应用前景。
《XML文档全文检索的理论与方法》目录

第1章 绪论 1

1.1 研究意义与研究背景 1

1.2 国内外研究现状 3

1.2.1 XML上下文的相关性研究 3

1.2.2 重复元素的过滤 5

1.2.3 元素大小的处理 5

1.3 研究内容 6

1.4 结构安排 7

第2章 信息检索研究概述 9

2.1 信息检索的基本概念 9

2.1.1 信息检索 9

2.1.2 信息检索方法 10

2.1.3 信息检索系统 10

2.1.4 信息检索入口 11

2.2 文档描述与用户信息需求 11

2.2.1 文档描述中的索引理论 11

2.2.2 文档-索引词二维矩阵 12

2.2.3 索引词的权重计算方法 13

2.2.4 用户信息需求 14

2.3 信息检索方法 14

2.3.1 布尔模型 15

2.3.2 向量空间模型 16

2.3.3 概率模型 17

2.4 信息检索系统 20

2.4.1 信息检索系统构成 20

2.4.2 信息检索原理 23

2.5 用户目标与任务 25

2.5.1 用户目标 25

2.5.2 用户目标与任务层次 26

第3章 XML置标语言 29

3.1 文档特征 29

3.1.1 内容特征 29

3.1.2 结构特征 29

3.1.3 属性特征 30

3.1.4 布局特征 30

3.2 文档置标与置标语言 30

3.2.1 特殊置标和一般置标 30

3.2.2 通用置标语言的发展 31

3.3 XML文档 36

3.3.1 XML标准组成 36

3.3.2 XML文档规范 37

3.3.3 XML文档特征描述 40

3.3.4 XML文档组织结构剖析 42

3.4 良构的XML文档与XML名称空间 46

3.4.1 XML语法规则 46

3.4.2 建立一个良构的XML文档 47

3.4.3 良构XML文档中的错误 48

3.4.4 XML名称空间 49

3.5 XML文档的运行实例 50

3.5.1 元素声明规则 51

3.5.2 属性声明规则 52

3.5.3 实体声明规则 52

3.5.4 注释声明规则 52

3.6 XML文档的验证实例 52

3.6.1 用DTD验证一个文档 53

3.6.2 用XML Schema描述一个文档 53

3.6.3 RELAX NG技术 54

第4章 XML文档的索引方法 57

4.1 基于XML文档的索引 57

4.1.1 前序一后序节点标号法 58

4.1.2 扩展的前序标号法 59

4.1.3 基于路径的标号法 60

4.1.4 节点定义法 60

4.1.5 XML文档树的节点编码 61

4.1.6 倒排索引 62

4.1.7 结构索引 63

4.1.8 索引策略 64

4.2 基于XML文档的结构索引分析 64

4.2.1 结构索引的方法及特点 65

4.2.2 结构索引的潜在优势 67

4.3 基于XML文档的索引机制的改良 67

第5章 XML信息检索 69

5.1 XML信息检索的特点 69

5.2 与XML相关的检索方式 70

5.2.1 XML信息检索与XML数据库查询 70

5.2.2 XML信息检索与HTML文档检索 71

5.3 XML查询方法与查询语言 73

5.3.1 XPath路径查询语言 74

5.3.2 XQuery查询语言 76

5.3.3 IR-Query,一种扩展的XQuery查询语言 78

5.4 XML检索查询代数 80

5.4.1 传统关系代数表达式 81

5.4.2 TAX查询代数 82

5.4.3 XML查询操作符 83

5.4.4 OrientXA查询代数 84

5.5 面向XML信息检索的查询模型 87

5.5.1 基于简单关键字的查询方式 88

5.5.2 基于严格结构匹配与关键字相结合的查询模型 89

5.5.3 基于非严格结构匹配与关键字相结合的查询模型 90

5.6 XML信息检索的评价 92

5.6.1 检索性能的评价 92

5.6.2 XML信息检索评价 99

5.6.3 INEX检索评价实验 101

第6章 基于传统文本检索系统的XML索引实现 108

6.1 传统文本检索系统概况 108

6.2 Okapi的索引结构 109

6.3 XML索引与实现 110

6.3.1 XML文档预处理 111

6.3.2 路径索引 111

6.3.3 内容索引 114

6.4 实验评价 115

6.4.1 XML数据集 115

6.4.2 结果评价 116

第7章 基于XML的全文检索原型系统 118

7.1 基于中文XML文档的全文检索软件的原型系统开发 118

7.1.1 系统设计目标 118

7.1.2 全文检索系统的实现平台 118

7.1.3 基于XML的全文检索系统的功能模块设计 125

7.1.4 系统详细设计方案 128

7.1.5 XML文档的解析 129

7.2 为XML文档建立全文索引 130

7.3 XML文档查询 133

7.4 基于XML的全文检索模型说明文档 136

7.4.1 系统配置 136

7.4.2 运行环境 136

7.4.3 运行说明 137

第8章 结论 141

参考文献 143

附录 148

返回顶部