大数据时代数据仓库技术研究PDF电子书下载
- 电子书积分:9 积分如何计算积分?
- 作 者:王会举著
- 出 版 社:武汉:武汉大学出版社
- 出版年份:2016
- ISBN:9787307188730
- 页数:158 页
第1章 绪论 1
1.1 研究背景 1
1.1.1 大数据时代 1
1.1.2 数据管理技术发展历程 2
1.2 传统数据仓库技术概述 3
1.3 四大推动力的发展变化 4
1.3.1 管理对象的变化 4
1.3.2 分析需求的变化 6
1.3.3 硬件平台的变化 6
1.3.4 软件技术的发展 7
1.4 传统数据仓库系统在大数据时代面临的挑战 8
1.4.1 架构问题 8
1.4.2 扩展性问题 10
1.4.3 数据组织方式问题 10
1.4.4 计算的容错性问题 11
1.5 MapReduce技术 11
1.6 研究范围、目标、内容及假设 13
1.7 研究技术路线 16
1.7.1 基于关系数据的大型数据仓库系统研究技术路线 16
1.7.2 基于属性图的多维数据分析研究技术路线 18
1.8 贡献 19
1.9 本书结构 20
第2章 大规模可扩展的数据仓库架构 22
2.1 新型数据仓库系统期望特性 23
2.2 相关工作 26
2.2.1 并行数据库主导型 27
2.2.2 MapReduce主导型 27
2.2.3 MapReduce和并行数据库集成型 29
2.2.4 最新研究 30
2.3 大规模可扩展的新型数据仓库架构 33
2.3.1 MapReduce技术分析 34
2.3.2 大规模可扩展的数据仓库架构 36
2.4 StarBacthLoad星形模型数据并行加载算法 40
2.5 本章小结 42
第3章 可扩展的高效查询处理框架 43
3.1 概述 43
3.2 相关工作 45
3.2.1 处理框架 45
3.2.2 预连接 46
3.2.3 层次编码 46
3.3 TAMP执行模型 47
3.3.1 关键思想 47
3.3.2 TAMP执行模型 48
3.3.3 TAMP在MapReduce平台上的实现 49
3.4 无连接存储模型 50
3.4.1 基本概念 50
3.4.2 无连接存储模型 51
3.4.3 维表优化存储策略 55
3.4.4 事实表优化存储策略 55
3.5 查询转换 57
3.5.1 等值谓词判断转换 57
3.5.2 范围谓词判断转换 57
3.5.3 列表谓词判断转换 58
3.5.4 Group-by转换 58
3.5.5 一个完整的转换例子 58
3.6 聚集优化 59
3.6.1 并行谓词判断 59
3.6.2 批量谓词判断算法 59
3.6.3 跳跃式扫描 60
3.6.4 Scan-index 64
3.7 多版本共存的维表更新协议 66
3.8 实验 70
3.8.1 扩展性分析 71
3.8.2 性能分析 73
3.8.3 跳跃式扫描性能分析 74
3.8.4 压缩性能分析 76
3.8.5 数据加载时间分析 78
3.8.6 存储空间分析 79
3.8.7 批量谓词判断分析 79
3.8.8 多版本共存的维表更新协议分析 81
3.9 TAMP执行模型的其他应用领域 82
3.10 本章小结 82
第4章 高效的智能型HC存储模型 84
4.1 概述 84
4.2 Hadoop分布式文件系统概述 88
4.3 相关工作 89
4.4 智能型混合列式存储模型的设计 90
4.4.1 HC存储模型 90
4.4.2 纯列式存储模型在HDFS上的实现 92
4.4.3 PAX存储模型 94
4.5 代价模型 95
4.5.1 概述 96
4.5.2 全局代价估计 99
4.5.3 局部代价估计 101
4.6 实验 102
4.6.1 数据加载和存储空间 104
4.6.2 聚集任务 105
4.6.3 连接任务 106
4.6.4 容错 108
4.7 本章小结 109
第5章 面向大规模属性图的超图立方体 111
5.1 概述 111
5.2 相关研究 114
5.3 超图立方体模型 116
5.4 基于MapReduce的超图立方体基本计算模型 121
5.5 MRGraph-Cubing:批量超图立方体计算算法 122
5.5.1 自包含式连接 123
5.5.2 单位立方体分批技术 124
5.5.3 批处理 127
5.5.4 基于代价的执行计划优化 130
5.6 实验 135
5.6.1 有效性 136
5.6.2 自包含式连接优化 138
5.6.3 单位立方体分批次优化 138
5.6.4 批次执行计划优化 140
5.6.5 可扩展性 140
5.7 本章小结 141
第6章 结论与展望 143
6.1 结论 143
6.2 展望 144
6.2.1 TAMP并发查询的扫描共享 144
6.2.2 新的TAMP代价模型与查询优化 144
6.2.3 异构冗余块共存的扩展 145
6.2.4 HC存储备份块恢复 145
6.2.5 面向高维数据的超图数据立方体计算 145
6.2.6 增量式超图数据立方体计算 145
参考文献 147
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《钒产业技术及应用》高峰,彭清静,华骏主编 2019
- 《红色旅游的社会效应研究》吴春焕著 2019
- 《汉语词汇知识与习得研究》邢红兵主编 2019
- 《现代水泥技术发展与应用论文集》天津水泥工业设计研究院有限公司编 2019
- 《生物质甘油共气化制氢基础研究》赵丽霞 2019
- 《东北民歌文化研究及艺术探析》(中国)杨清波 2019
- 《联吡啶基钌光敏染料的结构与性能的理论研究》李明霞 2019
- 《异质性条件下技术创新最优市场结构研究 以中国高技术产业为例》千慧雄 2019
- 《Prometheus技术秘笈》百里燊 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《大学化学实验》李爱勤,侯学会主编 2016
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017