第1章 数据仓库简史及第一代数据仓库 1
1.1 数据库管理系统 1
1.2 在线应用 1
1.3 个人电脑和4GL技术 2
1.4 蜘蛛网环境 2
1.5 企业角度的演化 3
1.6 数据仓库环境 4
1.7 什么是数据仓库 4
1.8 整合数据——一个痛苦的经历 5
1.9 数据的量 5
1.10 一种不同的开发方法 6
1.11 演变到DW2.0环境 6
1.12 数据仓库的商业影响 7
1.13 数据仓库环境的各种组件 7
1.13.1 ETL——抽取/转换/装载 8
1.13.2 ODS——操作数据存储 8
1.13.3 数据集市 8
1.13.4 探索仓库 9
1.14 数据仓库的演变——从企业的角度 9
1.15 关于数据仓库的其他观念 9
1.16 主动数据仓库 10
1.17 联合数据仓库方法 10
1.18 星状模式方法 12
1.19 数据集市数据仓库 12
1.20 建立一个“真正的”数据仓库 13
1.21 总结 14
第2章 DW2.0简介 15
2.1 DW2.0——一种新的范式 15
2.2 DW2.0——从企业的角度 15
2.3 数据的生命周期 17
2.4 设置不同区的原因 19
2.5 元数据 20
2.6 数据访问 21
2.7 结构化数据/非结构化数据 22
2.8 文本分析 24
2.9 “废话” 25
2.10 术语问题 25
2.11 特定文本/一般文本 26
2.12 元数据——一个主要组成部分 26
2.13 本地元数据 28
2.14 基础技术 29
2.15 不断变化的业务需求 31
2.16 DW2.0中的数据流 32
2.17 数据量 32
2.18 实用应用程序 33
2.19 DW2.0和参照完整性 35
2.20 DW2.0的报告 35
2.21 总结 36
第3章 DW2.0组成部分——关于不同区 38
3.1 交互区 38
3.2 整合区 41
3.3 近线区 48
3.4 归档区 50
3.5 非结构化处理 56
3.6 企业用户的观点 59
3.7 总结 59
第4章 DW2.0中的元数据 61
4.1 数据和分析的可复用性 61
4.2 DW2.0中的元数据 61
4.3 主动知识库/被动知识库 63
4.4 主动知识库 64
4.5 企业元数据 64
4.6 元数据和记录系统 65
4.7 分类 66
4.8 内部分类/外部分类 66
4.9 归档区元数据 67
4.10 维护元数据 67
4.11 举例说明如何使用元数据 67
4.12 终端用户的观点 69
4.13 总结 70
第5章 DW2.0技术基础设施的流动性 71
5.1 技术基础设施 71
5.2 快速的业务改变 72
5.3 环状改变 73
5.4 打破循环 73
5.5 缩短IT响应时间 73
5.6 语义暂态、语义常态数据 74
5.7 语义暂态数据 74
5.8 语义稳定的数据 74
5.9 混合语义稳定和不稳定数据 75
5.10 分离语义稳定和不稳定数据 76
5.11 减缓业务的改变 76
5.12 创建数据快照 76
5.13 历史记录 77
5.14 数据划分 77
5.15 终端用户的观点 78
5.16 总结 78
第6章 DW2.0的方法与途径 79
6.1 螺旋式方法——主要特点综述 79
6.2 七流法——总览 82
6.3 企业参考模型流 82
6.4 企业知识协调流 83
6.5 信息工厂开发流 84
6.6 数据归档定位流 84
6.7 数据纠正流(旧称数据清理流) 84
6.8 基础设施流 84
6.9 整体信息质量管理流 86
6.10 总结 88
第7章 统计处理和DW2.0 90
7.1 两种类型的处理 90
7.2 使用统计分析 91
7.3 比较的完整性 91
7.4 启发式分析 92
7.5 冻结的数据 93
7.6 探索型处理 93
7.7 分析频率 93
7.8 探索工具 93
7.9 探索型处理数据的来源 95
7.10 更新探索数据 95
7.11 基于项目的数据 95
7.12 数据集市和探索工具 96
7.13 数据回流 97
7.14 在内部使用探索数据 98
7.15 企业分析员的观点 99
7.16 总结 100
第8章 数据模型与DW2.0 101
8.1 智能路线图 101
8.2 数据模型和企业 101
8.3 整合范围 101
8.4 区别粒状型数据和概括型数据 102
8.5 数据模型的层次 102
8.6 数据模型和交互区 104
8.7 企业数据模型 104
8.8 模型转化 105
8.9 数据模型和非结构化数据 105
8.10 企业用户的观点 106
8.11 总结 107
第9章 监视DW2.0环境 108
9.1 监视DW2.0环境 108
9.2 事务监视 108
9.3 数据质量监视 108
9.4 数据仓库监视 108
9.5 事务监视——响应时间 109
9.6 高峰期处理 110
9.7 ETL数据质量监视 110
9.8 数据仓库监视工具 111
9.9 休眠数据 112
9.10 企业用户的观点 112
9.11 总结 113
第10章 DW2.0与安全 114
10.1 保护访问数据 114
10.2 加密技术 114
10.3 缺点 114
10.4 防火墙 115
10.5 使数据脱机 115
10.6 限制性加密 116
10.7 直接转储 116
10.8 数据仓库监视 117
10.9 检测攻击 117
10.10 近线区数据的安全 118
10.11 企业用户的观点 118
10.12 总结 119
第11章 时间相关数据 120
11.1 DW2.0中的所有数据——与时间相关 120
11.2 交互区中的时间相关性 120
11.3 DW2.0其他部分中的数据相关 121
11.4 整合区中的事务处理 121
11.5 离散数据 121
11.6 连续时间段数据 122
11.7 一个记录序列 123
11.8 非重叠记录集 123
11.9 开始和结束一个记录序列 123
11.10 数据的连续性 124
11.11 时间瓦解数据 124
11.12 归档区中的时间相关变量 125
11.13 企业用户的观点 125
11.14 总结 125
第12章 DW2.0的数据流 127
12.1 贯穿整个构架的数据流 127
12.2 进入交互区 127
12.3 ETL的角色 128
12.4 进入整合区的数据流 128
12.5 进入近线区的数据流 128
12.6 进入归档区的数据流 129
12.7 下降的数据访问概率 130
12.8 数据的异常流 130
12.9 企业用户的观点 131
12.10 总结 132
第13章 ETL处理与DW2.0 133
13.1 转换数据状态 133
13.2 ETL适用范围 133
13.3 应用数据到企业数据的转换 133
13.4 ETL工作模式 134
13.5 源和目标 134
13.6 ETL映射 135
13.7 状态转换——实例 135
13.8 更加复杂的转换 136
13.9 ETL与吞吐量 136
13.10 ETL与元数据 137
13.11 ETL与审核记录 138
13.12 ETL与数据质量 138
13.13 创建ETL 138
13.14 代码创建或参数驱动的ETL 139
13.15 ETL与丢弃 139
13.16 变化数据的捕获 139
13.17 ELT 140
13.18 企业用户的观点 140
13.19 总结 141
第14章 DW2.0与粒度管理器 142
14.1 粒度管理器 142
14.2 提高粒度级别 142
14.3 过滤数据 143
14.4 粒度管理器的功能 144
14.5 本地与第三方粒度管理器的比较 144
14.6 粒度管理器的并行化 144
14.7 作为副产品的元数据 145
14.8 企业用户眼中的粒度管理器 145
14.9 总结 145
第15章 DW2.0和性能 146
15.1 好的性能——DW2.0的基石 146
15.2 在线响应时间 146
15.3 分析响应时间 147
15.4 数据的流动 147
15.5 队列 147
15.6 启发式处理 148
15.7 分析的生产率和响应时间 149
15.8 索引 149
15.9 移除休眠数据 150
15.10 终端用户培训 150
15.11 监控环境 151
15.12 容量规划 151
15.13 元数据 152
15.14 批处理的并行 152
15.15 事务处理的并行 153
15.16 工作负荷量的管理 153
15.17 数据集市 153
15.18 探索工具 155
15.19 将事务分为不同的类 155
15.20 服务标准协议 155
15.21 保护交互区 156
15.22 数据分割 156
15.23 选择合适的硬件 157
15.24 区分“农民”和“探索者” 157
15.25 数据的物理分组 157
15.26 检查自动产生的代码 158
15.27 企业用户的观点 158
15.28 总结 158
第16章 迁移 160
16.1 房屋和城市 160
16.2 在一个完美情况中迁移 160
16.3 完美情况几乎永远不会发生 160
16.4 增量式添加组件 161
16.5 添加归档区 162
16.6 建立企业元数据 163
16.7 建立元数据基础结构 163
16.8 “吞没”源系统 163
16.9 作为缓冲器的ETL 164
16.10 迁移到非结构化的环境 164
16.11 企业用户的观点 164
16.12 总结 165
第17章 成本验证和DW2.0 166
17.1 DW2.0的成本值吗 166
17.2 宏观层次的价值验证 166
17.3 微观层次的价值验证 166
17.4 公司B拥有DW2.0 167
17.5 生成新的分析 167
17.6 按步骤执行 168
17.7 总成本是多少 169
17.8 考虑公司B 169
17.9 考虑DW2.0的成本 169
17.10 信息的现实情况 170
17.11 DW2.0真正的经济效益 171
17.12 信息的时间价值 171
17.13 整合的价值 171
17.14 历史信息 172
17.15 第一代DW和DW2.0——在经济效益上的比较 172
17.16 企业用户的观点 173
17.17 总结 173
第18章 DW2.0中的数据质量 174
18.1 DW2.0中的数据质量工具集 175
18.2 数据分析工具和逆向工程数据模型 175
18.3 数据模型种类 176
18.4 数据分析不一致对自上而下建模的挑战 179
18.5 总结 180
第19章 DW2.0和非结构化数据 182
19.1 DW2.0和非结构化数据 182
19.2 文本读取 182
19.3 在哪里进行文本分析处理 183
19.4 文本整合 183
19.5 简单编辑 183
19.6 无用词 184
19.7 同义词替换 184
19.8 同义词串联 185
19.9 同形异义解析 185
19.10 建立主题 185
19.11 外部术语表/分类法 185
19.12 分词 186
19.13 替换拼写 186
19.14 跨语言的文本 187
19.15 直接搜索 187
19.16 间接搜索 187
19.17 术语 187
19.18 半结构化数据/值=名称数据 188
19.19 准备数据所需的技术 188
19.20 关系数据库 188
19.21 结构化/非结构化连接 189
19.22 企业用户的观点 189
19.23 总结 189
第20章 DW2.0与记录系统 191
20.1 其他记录系统 194
20.2 企业用户的观点 194
20.3 总结 194
第21章 多方面的话题 196
21.1 数据集市 196
21.2 数据集市带来的便利 196
21.3 转换数据集市数据 197
21.4 监视DW2.0 198
21.5 在数据集市间移动数据 198
21.6 不合格数据 199
21.7 用以平衡的条目 199
21.8 重新设置值 200
21.9 数据修正 202
21.10 数据移动的速度 202
21.11 数据仓库工具 203
21.12 总结 206
第22章 DW2.0环境中的处理 207
第23章 管理DW2.0环境 211
23.1 数据模型 211
23.2 构架管理 211
23.2.1 确定什么时候需要归档区 212
23.2.2 确定是否需要近线区 212
23.3 元数据管理 213
23.4 数据库管理 214
23.5 数据管理 214
23.6 系统和技术管理 215
23.7 DW2.0环境管理人员的管理 216
23.7.1 优化及优先冲突 217
23.7.2 预算 217
23.7.3 进度表和里程碑的确定 217
23.7.4 资源分配 217
23.7.5 管理咨询人员 217
23.8 总结 218