数据集成原理PDF电子书下载
- 电子书积分:13 积分如何计算积分?
- 作 者:(美)AnHaiDoan,(美)AlonHalevy,(美)ZacharyIves著
- 出 版 社:北京:机械工业出版社
- 出版年份:2014
- ISBN:9787111471660
- 页数:376 页
第1章 绪论 1
1.1 什么是数据集成 1
1.2 数据集成面临的挑战 5
1.2.1 系统原因 5
1.2.2 逻辑原因 5
1.2.3 社会和管理原因 6
1.2.4 设定预期 7
1.3 数据集成架构 7
1.3.1 数据集成系统的组成部分 7
1.3.2 数据集成实例 9
1.4 全书概览 12
参考文献注释 13
第一部分 数据集成技术基础 16
第2章 查询表达式及运算 16
2.1 数据库概念回顾 16
2.1.1 数据模型 16
2.1.2 完整性约束 18
2.1.3 查询和应答 19
2.1.4 合取查询 20
2.1.5 datalog查询 21
2.2 查询展开 22
2.3 查询包含与等价 23
2.3.1 形式化定义 23
2.3.2 合取查询的包含 24
2.3.3 合取查询的并集 25
2.3.4 带有比较谓词的合取查询 26
2.3.5 带有否定的合取查询 28
2.3.6 包语义、分组和聚集 30
2.4 基于视图计算查询 32
2.4.1 问题定义 33
2.4.2 视图与查询计算的相关性 34
2.4.3 查询重写的可能长度 34
2.4.4 桶算法和MiniCon算法 35
2.4.5 逻辑方法:逆规则算法 41
2.4.6 算法比较 42
2.4.7 基于视图的查询应答 43
参考文献注释 46
第3章 数据源描述 47
3.1 概述和必要条件 47
3.2 模式映射语言 49
3.2.1 模式映射语言规则 49
3.2.2 全局视图 50
3.2.3 局部视图 53
3.2.4 全局-局部视图 55
3.2.5 元组生成依赖 56
3.3 访问模式限制 57
3.3.1 构建访问模式限制 58
3.3.2 生成可执行计划 58
3.4 中介模式上的完整性约束 61
3.4.1 带有完整性约束的LAV 61
3.4.2 带有完整性约束的GAV 62
3.5 结果完备性 63
3.5.1 局部完备性 63
3.5.2 结果完备性检测 64
3.6 数据级的异构性 65
3.6.1 标度差异性 66
3.6.2 相同实体的多重表示 66
参考文献注释 67
第4章 字符串匹配 68
4.1 问题描述 68
4.2 相似度度量 69
4.2.1 基于序列的相似度度量 69
4.2.2 基于集合的相似度度量 75
4.2.3 混合相似度度量 77
4.2.4 语音相似度度量 79
4.3 可扩展的字符串匹配 80
4.3.1 字符串上的倒排索引 81
4.3.2 大小过滤 81
4.3.3 前缀过滤 82
4.3.4 位置过滤 84
4.3.5 边界过滤 85
4.3.6 其他相似度度量方法的可扩展技术 86
参考文献注释 86
第5章 模式匹配与模式映射 88
5.1 问题定义 88
5.1.1 语义映射 89
5.1.2 语义匹配 89
5.1.3 模式匹配与模式映射 90
5.2 模式匹配和模式映射的挑战 90
5.3 匹配和映射系统概述 92
5.3.1 模式匹配系统 92
5.3.2 模式映射系统 94
5.4 匹配器 94
5.4.1 名字匹配器 94
5.4.2 实例匹配器 96
5.5 组合匹配预测 97
5.6 施加域完整性约束 98
5.6.1 域完整性约束 99
5.6.2 搜索匹配组合空间 100
5.7 匹配选择器 104
5.8 匹配重用 105
5.8.1 学习匹配 106
5.8.2 学习器 107
5.8.3 训练元学习器 108
5.9 多对多匹配 109
5.10 由匹配到映射 111
参考文献注释 116
第6章 通用模式操作 118
6.1 模型管理操作 119
6.2 合并操作 120
6.3 模型生成操作 121
6.4 逆映射操作 123
6.5 模型管理系统 124
参考文献注释 124
第7章 数据匹配 126
7.1 问题定义 126
7.2 规则匹配 127
7.3 学习匹配 129
7.4 聚类匹配 131
7.5 概率匹配 133
7.5.1 贝叶斯网络 133
7.5.2 基于朴素贝叶斯的数据匹配 138
7.5.3 特征相关性 140
7.5.4 文本中的实体指代匹配 141
7.6 协同匹配 144
7.6.1 基于聚类的协同匹配 146
7.6.2 协同匹配文档中的实体指代 146
7.7 数据匹配的可扩展性 148
7.7.1 规则匹配扩展 148
7.7.2 其他匹配方法的扩展 149
参考文献注释 150
第8章 查询处理 152
8.1 背景:DBMS查询处理 153
8.1.1 选择查询执行计划 154
8.1.2 执行查询计划 156
8.2 背景:分布式查询处理 157
8.2.1 数据放置和转移 158
8.2.2 两阶段连接 158
8.3 数据集成查询处理 160
8.4 生成初始查询计划 161
8.5 互联网数据的查询执行 161
8.5.1 多线程、流水线、数据流架构 161
8.5.2 有自治数据源的接口 162
8.5.3 故障处理 163
8.6 自适应查询处理 163
8.7 事件驱动自适应策略 164
8.7.1 数据源故障和延迟处理 165
8.7.2 处理流水线操作结束时突发的基数问题 166
8.8 性能驱动的自适应策略 168
8.8.1 Eddy:基于队列的计划选择 169
8.8.2 校正查询处理:基于代价的重新优化 171
参考文献注释 175
第9章 包装器 176
9.1 引言 176
9.1.1 包装器的构建 177
9.1.2 包装器构建面临的挑战 177
9.1.3 构建方法的分类 178
9.2 手动的包装器构建 179
9.3 基于学习的包装器构建 180
9.3.1 HLRT包装器 181
9.3.2 Stalker包装器 182
9.4 无模式的包装器学习 186
9.4.1 建模数据源模式Ts和抽取程序Ew 187
9.4.2 推导数据模式Ts和抽取程序Ew 187
9.5 交互的包装器构建 191
9.5.1 使用Stalker交互标记页面 192
9.5.2 使用Poly识别正确的抽取规则 193
9.5.3 用Lixto创建抽取规则 195
参考文献注释 197
第10章 数据仓库与缓存 199
10.1 数据仓库 200
10.1.1 数据仓库设计 201
10.1.2 ETL:抽取/转换/加载 201
10.2 数据交换:描述性仓库 203
10.2.1 数据交换设置 203
10.2.2 数据交换解 204
10.2.3 通用解 204
10.2.4 核心通用解 206
10.2.5 查询物化信息库 207
10.3 缓存及部分物化 207
10.4 本地、外部数据的直接分析 208
参考文献注释 210
第二部分 扩展数据表示集成 214
第11章 XML 214
11.1 数据模型 215
11.2 XML结构和模式定义 217
11.2.1 文档类型定义 218
11.2.2 XML模式 219
11.3 查询语言 220
11.3.1 先驱:DOM和SAX 221
11.3.2 XPath:XML查询原语 221
11.3.3 XQuery:XML查询能力 225
11.4 XML查询处理 229
11.4.1 XML路径匹配 231
11.4.2 XML输出 232
11.4.3 XML查询优化 233
11.5 XML模式映射 233
11.5.1 嵌套映射 233
11.5.2 带嵌套映射的查询重写 236
参考文献注释 236
第12章 本体和知识表示 238
12.1 数据集成中的知识表示举例 238
12.2 描述逻辑 239
12.2.1 描述逻辑的语法 240
12.2.2 描述逻辑的语义 241
12.2.3 描述逻辑的推理 242
12.2.4 描述逻辑和数据库推理的比较 244
12.3 语义Web 245
12.3.1 资源描述框架 245
12.3.2 RDF模式 249
12.3.3 Web本体语言 249
12.3.4 RDF查询:SPARQL语言 250
参考文献注释 251
第13章 不确定性数据集成 253
13.1 不确定性表示 254
13.1.1 概率数据表示 255
13.1.2 从不确定性到概率 256
13.2 不确定模式映射建模 257
13.2.1 概率映射 257
13.2.2 概率映射的语义 258
13.2.3 表语义 259
13.2.4 元组语义 260
13.3 不确定性和数据溯源 261
参考文献注释 261
第14章 数据溯源 263
14.1 溯源的两种表示方法 263
14.1.1 使用数据标注表示溯源 263
14.1.2 使用数据关系图表示溯源 264
14.1.3 两种表示方法的可交换性 265
14.2 数据溯源的应用 265
14.3 溯源半环 266
14.3.1 半环形式化模型 266
14.3.2 半环模型的应用 268
14.4 溯源的存储 270
参考文献注释 271
第三部分 新型集成系统 274
第15章 Web数据集成 274
15.1 Web数据的用途 276
15.2 深层网络 277
15.2.1 垂直搜索 278
15.2.2 深层网络浅层化 280
15.3 主题门户网站 282
15.4 Web数据的轻量级集成 284
15.4.1 发现Web中的结构化数据 285
15.4.2 导入数据 287
15.4.3 合并多个数据集 288
15.4.4 重用他人工作成果 288
15.5 “即付即用”数据管理 289
参考文献注释 289
第16章 关键字搜索:接需集成 293
16.1 结构化数据中的关键字搜索 293
16.1.1 数据图 293
16.1.2 关键字匹配和评分模型 295
16.2 结果排名计算 296
16.2.1 图扩展算法 296
16.2.2 基于阈值的合并 297
16.3 数据集成中的关键字搜索 299
16.3.1 以可扩展的方式自动地构建边 300
16.3.2 可扩展的查询应答 301
16.3.3 通过学习算法调整边和节点的权重 301
参考文献注释 302
第17章 对等数据集成 303
17.1 对等节点和映射 303
17.2 映射的语义 307
17.3 PDMS查询应答的复杂性 307
17.3.1 有环PDMS 308
17.3.2 对等映射中的比较谓词 308
17.4 查询重写算法 309
17.5 组合映射 312
17.6 采用松散映射进行对等数据管理 314
17.6.1 基于相似度的映射 314
17.6.2 映射表 315
参考文献注释 317
第18章 支持协同的集成 318
18.1 协同因何而不同 318
18.2 处理校正和反馈 319
18.2.1 直接向下传播的用户更新 319
18.2.2 回溯传播的反馈或更新 319
18.3 协同标注与表达 320
18.3.1 映射作为标注:轨迹 320
18.3.2 评论和讨论作为标注 321
18.4 动态数据:协同数据共享 322
18.4.1 基本架构 324
18.4.2 映射更新与物化实例 325
18.4.3 冲突协调 328
参考文献注释 328
第19章 数据集成的未来 330
19.1 不确定性、溯源和清理 330
19.2 众包和“人计算” 330
19.3 构建大规模结构化Web数据库 331
19.4 轻量级集成 331
19.5 集成数据可视化 332
19.6 社交媒体集成 332
19.7 基于集群和云的并行处理与缓存 332
参考文献 333
索引 360
- 《女丹仙道:道教女子内丹养生修炼秘籍 下》董沛文著 2012
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《第一性原理方法及应用》李青坤著 2019
- 《计算机组成原理解题参考 第7版》张基温 2017
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《高等院校保险学专业系列教材 保险学原理与实务》林佳依责任编辑;(中国)牟晓伟,李彤宇 2019
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《民国时期医药卫生文献集成 37》路丽明编 2019
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《魔法销售台词》(美)埃尔默·惠勒著 2019
- 《看漫画学钢琴 技巧 3》高宁译;(日)川崎美雪 2019
- 《优势谈判 15周年经典版》(美)罗杰·道森 2018
- 《社会学与人类生活 社会问题解析 第11版》(美)James M. Henslin(詹姆斯·M. 汉斯林) 2019
- 《海明威书信集:1917-1961 下》(美)海明威(Ernest Hemingway)著;潘小松译 2019
- 《迁徙 默温自选诗集 上》(美)W.S.默温著;伽禾译 2020
- 《上帝的孤独者 下 托马斯·沃尔夫短篇小说集》(美)托马斯·沃尔夫著;刘积源译 2017
- 《巴黎永远没个完》(美)海明威著 2017
- 《剑桥国际英语写作教程 段落写作》(美)吉尔·辛格尔顿(Jill Shingleton)编著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《高等教育双机械基础课程系列教材 高等学校教材 机械设计课程设计手册 第5版》吴宗泽,罗圣国,高志,李威 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017
- 《新工业时代 世界级工业家张毓强和他的“新石头记”》秦朔 2019
- 《智能制造高技能人才培养规划丛书 ABB工业机器人虚拟仿真教程》(中国)工控帮教研组 2019
- 《AutoCAD机械设计实例精解 2019中文版》北京兆迪科技有限公司编著 2019