第1章 大数据集成的挑战和机遇 1
1.1 传统数据集成 2
1.1.1 航班示例:数据源 2
1.1.2 航班示例:数据集成 7
1.1.3 数据集成:体系结构和三个主要步骤 10
1.2 大数据集成:挑战 12
1.2.1 “V”维度 13
1.2.2 案例研究:深网数据量 15
1.2.3 案例研究:抽取的领域数据 18
1.2.4 案例研究:深网数据的质量 22
1.2.5 案例研究:浅网结构化数据 25
1.2.6 案例研究:抽取的知识三元组 28
1.3 大数据集成:机遇 30
1.3.1 数据冗余性 31
1.3.2 长数据 32
1.3.3 大数据平台 33
1.4 章节安排 33
第2章 模式对齐 34
2.1 传统模式对齐:快速导览 35
2.1.1 中间模式 35
2.1.2 属性匹配 36
2.1.3 模式映射 37
2.1.4 查询问答 38
2.2 应对多样性和高速性的挑战 39
2.2.1 概率模式对齐 39
2.2.2 按需集成用户反馈 52
2.3 应对多样性和海量性的挑战 54
2.3.1 集成深网数据 55
2.3.2 集成Web表格 59
第3章 记录链接 68
3.1 传统记录链接:快速导览 69
3.1.1 两两匹配 71
3.1.2 聚类 72
3.1.3 分块 74
3.2 应对海量性挑战 76
3.2.1 使用MapReduce并行分块 77
3.2.2 meta-blocking:修剪两两匹配 83
3.3 应对高速性挑战 88
3.4 应对多样性挑战 95
3.5 应对真实性挑战 100
3.5.1 时态记录链接 100
3.5.2 具有唯一性约束的记录链接 107
第4章 大数据集成:数据融合 113
4.1 传统数据融合:快速导览 114
4.2 应对真实性挑战 116
4.2.1 数据源的准确度 117
4.2.2 值为真的概率 118
4.2.3 数据源之间的复制关系 121
4.2.4 端到端的解决方案 128
4.2.5 扩展性和适应性 131
4.3 应对海量性挑战 134
4.3.1 基于MapReduce框架做离线融合 135
4.3.2 在线数据融合 136
4.4 应对高速性挑战 142
4.5 应对多样性挑战 146
第5章 大数据集成:出现的新问题 149
5.1 众包的角色 149
5.1.1 利用传递关系 150
5.1.2 众包端到端的工作流 155
5.1.3 未来的工作 158
5.2 数据源选择 158
5.2.1 静态数据源 160
5.2.2 动态数据源 162
5.2.3 未来的工作 166
5.3 数据源分析 166
5.3.1 Bellman系统 167
5.3.2 概述数据源 170
5.3.3 未来的工作 174
第6章 结论 175
参考文献 177
索引 184