《大数据管理丛书 大数据集成》PDF下载

  • 购买积分:9 如何计算积分?
  • 作  者:(美)董欣,(美)戴夫士·斯里瓦斯塔瓦著;王秋月,杜治娟,王硕译
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2017
  • ISBN:9787111559863
  • 页数:186 页
图书介绍:本书作者在多年研究传统数据集成的基础上,着重分析了大数据背景下的大数据集成。和传统的数据集成相比,大数据集成具有一些新的挑战,例如数据和数据源的海量性、数据的多样性和数据的动态性等。本书共分6章,包括大数据集成的挑战和机遇、模式对齐、记录链接、数据融合、出现的新问题和结论,系统地讨论了解决大数据集成中关键问题的一些重要研究成果和方法,对大数据集成的研究者和实践者都很有帮助。另外本书也可以作为学生学习该领域的入门读物。

第1章 大数据集成的挑战和机遇 1

1.1 传统数据集成 2

1.1.1 航班示例:数据源 2

1.1.2 航班示例:数据集成 7

1.1.3 数据集成:体系结构和三个主要步骤 10

1.2 大数据集成:挑战 12

1.2.1 “V”维度 13

1.2.2 案例研究:深网数据量 15

1.2.3 案例研究:抽取的领域数据 18

1.2.4 案例研究:深网数据的质量 22

1.2.5 案例研究:浅网结构化数据 25

1.2.6 案例研究:抽取的知识三元组 28

1.3 大数据集成:机遇 30

1.3.1 数据冗余性 31

1.3.2 长数据 32

1.3.3 大数据平台 33

1.4 章节安排 33

第2章 模式对齐 34

2.1 传统模式对齐:快速导览 35

2.1.1 中间模式 35

2.1.2 属性匹配 36

2.1.3 模式映射 37

2.1.4 查询问答 38

2.2 应对多样性和高速性的挑战 39

2.2.1 概率模式对齐 39

2.2.2 按需集成用户反馈 52

2.3 应对多样性和海量性的挑战 54

2.3.1 集成深网数据 55

2.3.2 集成Web表格 59

第3章 记录链接 68

3.1 传统记录链接:快速导览 69

3.1.1 两两匹配 71

3.1.2 聚类 72

3.1.3 分块 74

3.2 应对海量性挑战 76

3.2.1 使用MapReduce并行分块 77

3.2.2 meta-blocking:修剪两两匹配 83

3.3 应对高速性挑战 88

3.4 应对多样性挑战 95

3.5 应对真实性挑战 100

3.5.1 时态记录链接 100

3.5.2 具有唯一性约束的记录链接 107

第4章 大数据集成:数据融合 113

4.1 传统数据融合:快速导览 114

4.2 应对真实性挑战 116

4.2.1 数据源的准确度 117

4.2.2 值为真的概率 118

4.2.3 数据源之间的复制关系 121

4.2.4 端到端的解决方案 128

4.2.5 扩展性和适应性 131

4.3 应对海量性挑战 134

4.3.1 基于MapReduce框架做离线融合 135

4.3.2 在线数据融合 136

4.4 应对高速性挑战 142

4.5 应对多样性挑战 146

第5章 大数据集成:出现的新问题 149

5.1 众包的角色 149

5.1.1 利用传递关系 150

5.1.2 众包端到端的工作流 155

5.1.3 未来的工作 158

5.2 数据源选择 158

5.2.1 静态数据源 160

5.2.2 动态数据源 162

5.2.3 未来的工作 166

5.3 数据源分析 166

5.3.1 Bellman系统 167

5.3.2 概述数据源 170

5.3.3 未来的工作 174

第6章 结论 175

参考文献 177

索引 184