《半结构化数据管理关键算法研究与实证》PDF下载

  • 购买积分:10 如何计算积分?
  • 作  者:张引著
  • 出 版 社:北京:中国社会科学出版社
  • 出版年份:2018
  • ISBN:9787520325059
  • 页数:212 页
图书介绍:随着互联网技术的飞速发展,传统的结构化数据已经无法满足人们对信息处理的要求。尤其是在云计算和物联网高速发展的今天,对管理半结构化数据、大规模信息处理等领域的研究受到越来越多的关注。由于半结构化数据模型既能描述半结构化数据又能描述结构化数据,且具有灵活易扩展的存储结构,其已被许多系统和应用作为公共数据模型,被广泛地用于异构数据量大的使用场景中。如今,几乎所有行业都制订了描述和共享本领域数据的半结构化数据模型应用标准。此外,由于半结构化数据模型具有易于描述结构、易于校验、易于展现等特点,许多原本是以非结构化方式进行存储的数据,也通过半结构化数据模型进行描述并存储。因此,如何对大规模半结构化数据进行有效的管理,在学术界是一个重要的理论研究课题,而在工业界又是一项具有广阔应用前景的技术。本书以XML为代表,探讨了大规模半结构化数据管理中的关键问题——模式提取、节点编码、索引与查询处理等研究课题。

第一章 半结构化数据的应用背景 1

第一节 研究背景 2

第二节 研究内容及意义 6

一 研究内容 6

二 研究意义 8

第三节 本书结构 9

第二章 半结构化数据的基础知识 12

第一节 半结构化数据的结构特征 12

第二节 半结构化数据的结构模型 15

第三节 半结构化数据的模式语言 16

第四节 半结构化数据的查询语言 17

第五节 半结构化数据的应用程序接口 19

第三章 半结构化数据的管理模型 22

第一节 半结构化数据模式提取的相关研究 23

第二节 半结构化数据节点编码的相关研究 26

第三节 半结构化数据索引的相关研究 27

第四节 半结构化数据查询处理的相关研究 30

第四章 半结构化数据的模式提取 33

第一节 半结构化数据的元素内容模型 34

一 半结构化数据的树状结构模型 34

二 半结构化数据的元素内容模型 36

三 提取大规模半结构化数据模式的质量标准 38

第二节 基于正则表达式的模式提取方法 39

一 元素内容模型的正则表示 39

二 XStruct算法简介 42

三 XStruct算法的优缺点 46

第三节 基于集合/序列的模式提取方法——XTree 48

一 XTree算法的组成 48

二 基于集合/序列的元素内容模型 50

三 XTree的数据结构 51

四 提取元素内容模型 55

五 识别数据类型 57

六 提取属性 58

七 输出模式 59

第四节 实证研究 59

一 XTree的算法的时间和空间复杂度分析 60

二 元素内容模型的有序性判断对模式准确性的影响 61

三 实验环境及测试工具 63

四 测试数据集 64

五 提取不同文档的模式的时间和内存消耗以及准确性 67

六 XTree算法提取同结构的不同大小的数据模式的时间消耗 71

第五节 小结 72

第五章 半结构化数据的节点编码 75

第一节 半结构化数据节点编码的特点 76

一 半结构化数据节点编码的质量评价标准 76

二 基于区间的节点编码方案 77

三 基于前缀的节点编码方案 82

四 ORDPATH编码方案 85

第二节 D2编码方案 89

一 D2编码方案的基本概念 89

二 静态D2编码 92

三 动态D2编码 94

第三节 D2编码的二进制表示 95

一 D2编码的二进制表示 96

二 D2物理编码的比较 102

第四节 实证研究 106

一 D2物理编码长度分析 106

二 D2物理编码长度实验 107

第五节 小结 109

第六章 半结构化数据的索引和查询处理 111

第一节 D2-Index索引策略 112

一 主索引 112

二 辅助索引 117

三 索引的动态更新 123

第二节 基于D2-Index索引策略的查询处理 130

一 查询语言 130

二 查询器 133

第三节 实证研究 137

第四节 小结 140

第七章 半结构化数据与大数据 143

第一节 大数据时代来临 143

第二节 大数据基础 146

一 大数据的定义 146

二 传统数据分析方法 149

三 大数据分析方法 151

四 大数据分析模式 153

五 大数据分析工具 154

第三节 大数据应用 157

一 应用演化 157

二 大数据分析的关键领域 159

三 大数据的典型应用 170

四 大数据的研究现状及发展趋势 177

第八章 总结 187

第一节 主要内容 187

第二节 未来研究展望 189

一 大规模半结构化数据模式的更新 189

二 大规模半结构化数据的信息检索 190

三 分布式半结构化数据的管理 190

参考文献 191