第1章 绪论 1
1.1 引言 1
1.2 Web数据及特点 2
1.3 Web数据管理及其应用 5
1.4 Web数据抽取 8
1.5 Web数据集成 9
1.6 数据空间 10
1.7 小结 10
参考文献 11
第2章 XML基础知识 13
2.1 引言 13
2.2 基本概念 14
2.3 XML查询语言 17
2.4 小结 23
参考文献 24
第一部分 Web数据抽取 27
第3章 Web数据抽取方法概述 27
3.1 引言 27
3.2 Web页面分类 28
3.3 Web数据抽取定义 31
3.4 Web数据抽取方法 32
3.5 Web数据抽取评价标准 33
3.6 小结 34
参考文献 34
第4章 数据型页面抽取方法 36
4.1 引言 36
4.2 多记录数据型页面的抽取方法 37
4.3 单记录数据型页面抽取方法 49
4.4 小结 54
参考文献 54
第5章 文档型页面抽取方法 56
5.1 引言 56
5.2 单记录文档型页面抽取方法 56
5.3 多记录文档型页面抽取方法 61
5.4 小结 65
参考文献 65
第6章 包装器的生成与维护 67
6.1 引言 67
6.2 包装器的生成 68
6.3 包装器的维护 72
6.4 系统结构 77
6.5 小结 78
参考文献 78
第7章 基于视觉的数据抽取 80
7.1 引言 80
7.2 Web页面上的视觉信息 82
7.3 基于视觉的数据记录抽取 85
7.4 基于视觉的数据项抽取 90
7.5 小结 93
参考文献 93
第8章 Web实体识别 95
8.1 引言 95
8.2 属性分类 96
8.3 整体解决方案 97
8.4 训练集的自动获取 98
8.5 属性匹配 99
8.6 属性权重的迭代训练 101
8.7 小结 105
参考文献 106
第二部分 Web数据集成 111
第9章 Web数据集成概述 111
9.1 引言 111
9.2 集成框架 111
9.3 集成查询接口的生成 112
9.4 查询处理 115
9.5 查询结果的处理 116
9.6 小结 117
参考文献 118
第10章 查询接口集成 120
10.1 引言 120
10.2 查询接口分析与集成 121
10.3 简易查询接口生成与处理 129
10.4 小结 138
参考文献 139
第11章 不确定模式匹配 142
11.1 引言 142
11.2 模式匹配定义 143
11.3 相似度计算 144
11.4 基于数字实例的模式匹配 146
11.5 模式匹配优化 148
11.6 不确定性模式匹配 149
11.7 小结 152
参考文献 152
第12章 查询转换 154
12.1 引言 154
12.2 查询转换问题 155
12.3 近似查询转换定义 157
12.4 基于动态规则的查询转换 158
12.5 基于谓词的查询转换 163
12.6 基于查询能力的查询转换 165
12.7 小结 166
参考文献 166
第13章 数据库采样 168
13.1 引言 168
13.2 基本概念 170
13.3 Web数据库图模型 173
13.4 Web数据库采样方法 175
13.5 小结 179
参考文献 179
第14章 数据库大小估计 181
14.1 引言 181
14.2 一种朴素的基于词频的估算方法 182
14.3 一种粗糙的基于词频的估算方法 184
14.4 小结 188
参考文献 189
第15章 Web数据集成系统 190
15.1 引言 190
15.2 体系结构 192
15.3 静态集成案例——学术信息集成 193
15.4 动态集成案例——工作信息集成 197
15.5 小结 203
参考文献 203
第三部分 数据空间 207
第16章 数据空间概述 207
16.1 引言 207
16.2 什么是数据空间 207
16.3 数据空间的特征 209
16.4 数据空间与数据库 211
16.5 数据空间与数据集成 212
16.6 数据空间系统 213
16.7 小结 214
参考文献 214
第17章 数据空间模型 216
17.1 引言 216
17.2 iDM数据模型 216
17.3 核心数据空间 220
17.4 任务空间 224
17.5 小结 232
参考文献 232
第18章 数据空间索引 234
18.1 引言 234
18.2 倒排索引 235
18.3 FAX索引 239
18.4 UFAX索引 242
18.5 小结 244
参考文献 244
第19章 数据空间查询处理 246
19.1 引言 246
19.2 查询接口 246
19.3 关键字查询 248
19.4 多属性组合查询 249
19.5 任务查询 253
19.6 小结 256
参考文献 256
第20章 数据空间系统 259
20.1 引言 259
20.2 实现技术 259
20.3 系统框架 268
20.4 系统功能 269
20.5 其他系统 273
20.6 小结 274
参考文献 274
第四部分 Web数据管理新技术 279
第21章 Web信息可信性 279
21.1 概述 279
21.2 不同应用场景下的信息可信性 280
21.3 信息可信度评估方法 288
21.4 Web信息可信度评估框架 290
21.5 小结 293
参考文献 294
第22章 移动Web搜索 297
22.1 引言 297
22.2 系统框架 298
22.3 地理标记Web资源 300
22.4 查询处理 302
22.5 相关性排名 305
22.6 查询结果可视化 306
22.7 小结 307
参考文献 307
第23章 移动应用集成 310
23.1 引言 310
23.2 移动应用集成框架 312
23.3 移动应用匹配 314
23.4 关键技术 316
23.5 小结 319
参考文献 319
第24章 大规模知识库构建 321
24.1 引言 321
24.2 关联数据 322
24.3 知识图谱 328
24.4 小结 329
参考文献 330
第25章 社交媒体 331
25.1 引言 331
25.2 社交媒体的特点 331
25.3 社交媒体数据带来的挑战 332
25.4 社交媒体中的短文本分析 333
25.5 基于社交媒体的事件发现 335
25.6 社交媒体事件处理框架 336
25.7 小结 337
参考文献 338
索引 339