《多根层次数据分布模型 论大数据时代的数据管理》PDF下载

  • 购买积分:10 如何计算积分?
  • 作  者:张建英著
  • 出 版 社:北京:科学出版社
  • 出版年份:2017
  • ISBN:9787030525710
  • 页数:237 页
图书介绍:信息社会开始进入到了大数据时代,”数据”的重要性不言而喻,数据库正面临一场科学革命。本书从传统数据管理面临的挑战出发,结合大数据发展现状,从人类知识层次的高度认识”数据”,阐述在大数据时代以数据为中心的必然性,提出在大数据时代数据管理的新范式,即以系统科学及开放的复杂巨系统为主要特征的范式,并论述数据管理正在向新范式转换。数据库系统是信息系统的核心与基础;而数据模型又是数据库系统的核心与基础;本书提出数据分布模型是大数据时代数据管理的核心与基础。本书从数据语义出发,基于多根树定义了一种数据分布模型-多根层次数据分布模型(MHM)。数据分布模型不同于常规数据模型,是为解决大数据系统中的众多管理问题而定义的一种更抽象的数据模型。MHM可以基于关系、层次、网状,或XML等数据模型构建;MHM同时符合系统科学及开放的复杂巨系统基本原理。本书还研究了MHM对数据一致性、事务管理、访问控制、扩展性等数据管理方面带来的改进;通过TPC-C基准数据库应用实验证明MHM性能、可靠性方面的优势;讨论了MHM广泛的适用范围。

第1章 导论 1

1.1 数据管理面临着一场科学革命 1

1.2 社会数据管理 3

1.3 数据分布模型 7

1.4 本书的组织结构 9

第一篇 大数据时代的数据管理 13

第2章 数据管理的现状 13

2.1 云计算及云数据管理 13

2.2 大数据简介 16

2.3 大数据的社会影响 18

2.4 大数据的困境及思考 20

第3章 数据在DIKW体系中的地位 23

3.1 信息 23

3.2 数据 24

3.3 信息与数据的关系 26

3.3.1 谁是第一性 26

3.3.2 在认识论中把握信息与数据 27

3.3.3 信息第一性的意义 30

3.4 知识 31

3.5 智慧 32

3.6 转识成智 35

3.7 认识数据、信息、知识、智慧、道德关系的意义 37

第4章 以数据为中心组织计算 40

4.1 不同类型数据的关系 40

4.1.1 数据质量 40

4.1.2 结构化、非结构化、半结构化数据 40

4.1.3 三类数据的层次关系 41

4.2 Hadoop与大数据处理 43

4.3 Hadoop与数据管理 44

4.4 以数据为中心的必然性 46

第5章 数据管理的新范式 49

5.1 数据管理的科学革命 49

5.2 数据管理的范式转变 53

5.2.1 库恩范式与格雷范式 53

5.2.2 数据管理新范式——系统科学范式 55

5.2.3 开放的复杂巨系统 58

5.2.4 数据管理的再认识 60

5.3 数据管理技术的调整与变更 62

5.3.1 本地封闭世界假设 63

5.3.2 数据的最终一致性 64

5.3.3 CAP与BASE 66

5.3.4 事务 67

5.4 系统科学范式下的数据组织与控制 73

5.4.1 数据的组织结构与数据模型 73

5.4.2 多根树 74

5.4.3 基于多根树的数据组织 75

5.4.4 基于多根树的数据控制 77

第二篇 数据模型与数据分布模型 85

第6章 大数据时代的数据模型 85

6.1 常用的数据模型 85

6.1.1 层次模型 85

6.1.2 网状模型 86

6.1.3 关系模型 86

6.1.4 半结构化数据模型与XML 87

6.1.5 面向对象的数据模型 88

6.2 典型应用 89

6.2.1 数据仓库 89

6.2.2 DNS数据库 89

6.2.3 几个大规模数据存储管理系统 91

6.2.4 key-value存储 95

6.2.5 大数据数据模型 100

6.3 ER模型及其表达能力 101

6.4 影响数据模型选择的因素 103

第7章 数据分布 106

7.1 数据分布的单位 106

7.1.1 数据分布以文件为单位 106

7.1.2 数据分布以片段为单位 106

7.1.3 数据分布以key-value对为单位 107

7.2 数据分布面临的挑战 107

7.3 依赖于数据分布的管理方面 110

7.3.1 查询处理 110

7.3.2 数据一致性、事务的实现 111

7.3.3 安全访问控制 111

7.3.4 扩展性 111

7.3.5 并行处理 112

7.3.6 可用性 112

7.3.7 其他 112

第8章 数据分布模型 113

8.1 没有数据分布模型的困难 113

8.1.1 系统通用性变差 113

8.1.2 应用系统开发效率低下 114

8.1.3 跨系统管理困难 114

8.1.4 系统进化困难 115

8.1.5 大数据管理系统难以落地 116

8.2 构建数据分布模型的可能性 116

8.2.1 数据分布模型特点 116

8.2.2 ER模型是数据模型的概念基础 117

8.2.3 现实世界是分布式存在、层次管理的 118

8.2.4 复杂信息管理系统的核心与基础 119

8.2.5 社会发展的必然结果 120

8.3 数据分布模型要考虑的因素 121

8.3.1 性能 121

8.3.2 多种因素的平衡 122

8.3.3 数据的语义 124

8.3.4 系统学的基本原理 125

8.3.5 可变性 127

8.3.6 简单性 128

8.3.7 定性与定量的统一 129

第三篇 多根层次数据分布模型MHM 133

第9章 MHM的提出 133

9.1 基于多根树的MHM 133

9.2 从图到多根树 135

9.2.1 数据图中的菱形与回路 135

9.2.2 模式图与数据图之间的关系 136

9.2.3 将数据图近似成多根树 137

9.3 祖先完整性与控制完整性 138

9.3.1 祖先完整性 138

9.3.2 控制完整性 138

9.3.3 祖先完整性与控制完整性的现实意义 140

9.4 多根树的操作及现实意义 141

9.4.1 并 141

9.4.2 差 143

9.4.3 交 144

9.4.4 缩窄 144

9.4.5 融合 147

9.4.6 提取 148

9.4.7 基线 150

第10章 MHM与数据分布 154

10.1 MHM作为数据分布模型 154

10.1.1 控制节点选取的原则 154

10.1.2 与其他数据模型的区别 155

10.2 基于MHM的数据分布例子 156

10.3 基于非关系数据模型的MHM 159

10.3.1 基于XML的MHM 159

10.3.2 基于层次数据模型的MHM 159

10.3.3 基于网状数据模型的MHM 159

10.3.4 基于key-value的MHM 160

第11章 MHM与系统科学范式 161

11.1 MHM与系统科学原理 161

11.1.1 MHM的整体性 161

11.1.2 MHM的层次性 162

11.1.3 MHM的开放性 163

11.1.4 MHM的目的性 163

11.1.5 MHM的突变性 164

11.1.6 MHM的稳定性 165

11.1.7 MHM的自组织性 165

11.1.8 MHM的相似性 165

11.2 MHM与系统论规律 166

11.2.1 MHM与结构功能相关律 166

11.2.2 MHM与信息反馈律 166

11.2.3 MHM与竞争协同律 167

11.2.4 MHM与涨落有序律 167

11.2.5 MHM与优化演化律 167

第四篇 基于MHM的数据管理 171

第12章 基于MHM的数据一致性 171

12.1 数据一致性与数据溯源 171

12.2 物理时间戳与逻辑时间戳 174

12.3 基于模糊物理时间戳的多版本 175

12.4 引用数据的复制 177

12.4.1 引用数据的异步复制 177

12.4.2 引用数据复制与完整性约束 178

12.4.3 几点说明 179

第13章 基于MHM的事务处理 182

13.1 基于本地封闭式世界假设的事务模型 182

13.2 数据最终一致性对事务的支持 184

13.3 基于MHM的事务的隔离性级别 187

13.4 不一致性与隔离性级别 189

13.5 事务提交与撤销 190

第14章 MHM可用性 192

14.1 跨层访问 192

14.2 多根树复制 193

14.2.1 多根树复制 193

14.2.2 多根树缓存 194

14.3 副本更新 195

第15章 基于MHM的访问控制 197

15.1 大规模分布式系统的访问控制 197

15.2 用户&区域 198

15.3 基于数据域的访问控制模型 201

15.4 基于MHM访问控制示例 202

15.4.1 在TPC-C中应用 202

15.4.2 一个实际项目中的应用 204

第16章 MHM扩展性 206

16.1 扩展性与性能 206

16.2 扩展性与效率 209

16.3 MHM的扩展性 210

16.3.1 扩展的实现 210

16.3.2 基于MHM的TPC-C扩展性 212

第17章 MHM的性能实验及适用范围 214

17.1 TPC-C应用例子 214

17.1.1 基于MHM的性能实验环境 214

17.1.2 TPC-C实验结果 216

17.1.3 实验结果分析 218

17.2 MHM适用范围 218

17.2.1 数据仓库 218

17.2.2 电商数据库 220

17.2.3 社交网络数据库 221

17.2.4 无线传感器网络数据库 223

17.2.5 移动数据库 224

17.2.6 GIS数据库 225

参考文献 226