第一章 半结构化数据的应用背景 1
第一节 研究背景 2
第二节 研究内容及意义 6
一 研究内容 6
二 研究意义 8
第三节 本书结构 9
第二章 半结构化数据的基础知识 12
第一节 半结构化数据的结构特征 12
第二节 半结构化数据的结构模型 15
第三节 半结构化数据的模式语言 16
第四节 半结构化数据的查询语言 17
第五节 半结构化数据的应用程序接口 19
第三章 半结构化数据的管理模型 22
第一节 半结构化数据模式提取的相关研究 23
第二节 半结构化数据节点编码的相关研究 26
第三节 半结构化数据索引的相关研究 27
第四节 半结构化数据查询处理的相关研究 30
第四章 半结构化数据的模式提取 33
第一节 半结构化数据的元素内容模型 34
一 半结构化数据的树状结构模型 34
二 半结构化数据的元素内容模型 36
三 提取大规模半结构化数据模式的质量标准 38
第二节 基于正则表达式的模式提取方法 39
一 元素内容模型的正则表示 39
二 XStruct算法简介 42
三 XStruct算法的优缺点 46
第三节 基于集合/序列的模式提取方法——XTree 48
一 XTree算法的组成 48
二 基于集合/序列的元素内容模型 50
三 XTree的数据结构 51
四 提取元素内容模型 55
五 识别数据类型 57
六 提取属性 58
七 输出模式 59
第四节 实证研究 59
一 XTree的算法的时间和空间复杂度分析 60
二 元素内容模型的有序性判断对模式准确性的影响 61
三 实验环境及测试工具 63
四 测试数据集 64
五 提取不同文档的模式的时间和内存消耗以及准确性 67
六 XTree算法提取同结构的不同大小的数据模式的时间消耗 71
第五节 小结 72
第五章 半结构化数据的节点编码 75
第一节 半结构化数据节点编码的特点 76
一 半结构化数据节点编码的质量评价标准 76
二 基于区间的节点编码方案 77
三 基于前缀的节点编码方案 82
四 ORDPATH编码方案 85
第二节 D2编码方案 89
一 D2编码方案的基本概念 89
二 静态D2编码 92
三 动态D2编码 94
第三节 D2编码的二进制表示 95
一 D2编码的二进制表示 96
二 D2物理编码的比较 102
第四节 实证研究 106
一 D2物理编码长度分析 106
二 D2物理编码长度实验 107
第五节 小结 109
第六章 半结构化数据的索引和查询处理 111
第一节 D2-Index索引策略 112
一 主索引 112
二 辅助索引 117
三 索引的动态更新 123
第二节 基于D2-Index索引策略的查询处理 130
一 查询语言 130
二 查询器 133
第三节 实证研究 137
第四节 小结 140
第七章 半结构化数据与大数据 143
第一节 大数据时代来临 143
第二节 大数据基础 146
一 大数据的定义 146
二 传统数据分析方法 149
三 大数据分析方法 151
四 大数据分析模式 153
五 大数据分析工具 154
第三节 大数据应用 157
一 应用演化 157
二 大数据分析的关键领域 159
三 大数据的典型应用 170
四 大数据的研究现状及发展趋势 177
第八章 总结 187
第一节 主要内容 187
第二节 未来研究展望 189
一 大规模半结构化数据模式的更新 189
二 大规模半结构化数据的信息检索 190
三 分布式半结构化数据的管理 190
参考文献 191