当前位置:首页 > 工业技术
Web数据仓库构建指南
Web数据仓库构建指南

Web数据仓库构建指南PDF电子书下载

工业技术

  • 电子书积分:10 积分如何计算积分?
  • 作 者:Ralph Kimball,Richard Merz著;张丽萍等译
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2005
  • ISBN:7302105022
  • 页数:248 页
图书介绍:本书介绍了Web数据仓库和Web之间的关系。本书介绍了Web仓库的关键元素,为设计、构建和管理web仓库提供了详细的指导说明。
《Web数据仓库构建指南》目录

引言 1

第1部分 将Web引入数据仓库 14

第1章 为什么要把Web引入数据仓库 14

1.1 为什么说点击流不只是另一种数据资源 15

1.2 行为分析 16

1.3 隐私保障 18

1.4 Web数据仓库的结构 19

1.4.1 用户和ISP 20

1.4.2 公共Web服务器和商业事务 20

1.4.3 热响应缓存 22

1.4.4 Web数据仓库系统 24

1.5 小结 25

第2章 跟踪网站用户的操作 26

2.1 用户操作的主要类别 29

2.2 购买产品的步骤 29

2.2.3 搜索关于可替换产品的信息 30

2.2.1 察觉需要 30

2.2.2 试着找到所需商品 30

2.2.4 选择 31

2.2.5 相关商品销售和升级商品销售 31

2.2.6 结账 31

2.2.7 订单之后的处理过程 33

2.3 购买软件或内容的步骤 34

2.4 跟踪的要素 34

2.4.1 用户来源 35

2.4.2 会话识别 35

2.4.3 用户识别 37

2.5 行为分析 40

2.5.1 入口点 40

2.5.2 驻留时间 40

2.5.5 出口点 41

2.5.3 查询 41

2.5.4 站点导航 41

2.6 关联各种操作 43

2.7 个性化的要求 43

2.7.1 重访识别 44

2.7.2 用户界面和内容的个性化 44

2.7.3 相关销售和刺激性销售 44

2.7.4 有效协作过滤 44

2.7.5 日程表和有关生活方式的事件 45

2.7.6 本地化 46

2.8 小结 46

第3章 利用点击流来进行决策 47

3.1 关于辨认客户的决策 48

3.1.1 通过识别客户来定制营销活动 48

3.1.2 通过对客户进行集群分析来锁定营销活动的目标 49

3.1.3 决定是否鼓励或者支持引荐相关链接 51

3.1.4 判定客户是否将要离开 52

3.2 关于通信的决策 52

3.2.1 判定一个特定的Web广告是否有效 52

3.2.2 判定客户问候是否有效 53

3.2.3 判定促销是否有利可图 54

3.2.4 对客户的生活变化做出响应 55

3.2.5 提高网站的有效性 56

3.2.6 培育社区感觉 57

3.3 关于网络业务的基本决策 57

3.3.1 决定通过网络提供哪些产品和服务 57

3.3.2 提供对操作的实时状态跟踪 58

3.3.3 判断我们的Web业务是否有利可图 59

3.4 小结 61

4.1 Web客户端/服务器互动——概要指南 62

第4章 把点击流理解为数据源 62

4.1.1 基本的客户端/服务器互动 63

4.1.2 广告 64

4.1.3 引用站点 64

4.1.4 特征文件 65

4.1.5 复合站点 65

4.2 代理服务器和浏览器缓冲 65

4.3 Web服务器日志 67

4.3.1 主机 68

4.3.2 识别 70

4.3.3 审核 70

4.3.4 时间 70

4.3.5 请求 70

4.3.6 状态 71

4.3.9 用户代理 72

4.3.7 字节数 72

4.3.8 访问者 72

4.3.10 文件名 73

4.3.11 服务时间 73

4.3.12 IP地址 73

4.3.13 服务器端口 73

4.3.14 进程ID 73

4.3.15 URL 73

4.4 Cookie 74

4.4.1 Cookie内容 75

4.4.2 Cookie手册——检查自己的cookie文件 76

4.5 统一系统标识符 77

4.6 查询字符串 78

4.7 小结 79

5.1 单块集成电路与分布式Web服务器的比较 80

第5章 支持数据仓库的网站设计 80

5.2 使你的服务器同步 81

5.3 页面内容标签 84

5.3.1 用于静态HTML的内容索引 85

5.3.2 用于动态HTML的内容索引 85

5.3.3 一个简单的内容索引应用程序 86

5.4 一致的Cookie 87

5.5 空日志记录服务器 88

5.6 个人数据仓库 90

5.7 建立信任 90

5.8 小结 92

第6章 创建点击流数据集市 93

6.1 多维建模快速浏览 93

6.2 点击流维 99

6.2.1 日历日期维 100

6.2.2 一日时间维 102

6.2.3 客户维 103

6.2.4 页面维 106

6.2.5 事件维 107

6.2.6 会话维 108

6.2.7 引荐维 108

6.2.8 产品(或服务)维 109

6.2.9 因果关系维 111

6.2.10 商业实体维 111

6.2.11 点击流追踪关键字 113

6.3 点击流数据集市 113

6.3.1 用于分析完整会话的点击流事实表 114

6.3.2 用于分析个体页面使用情况的点击流事实表 117

6.3.3 聚集点击流事实表 119

6.4 小结 120

7.1 销售交易数据集市 122

第7章 装配点击流价值链 122

7.2 客户通信数据集市 123

7.3 网络收益率数据集市 124

7.4 针对网络零售商的供应链 127

7.5 保险业中的保险单和索赔链 129

7.6 销售流水线链 130

7.7 卫生保健价值环 132

7.8 小结 133

第8章 实现点击流后处理机 135

8.1 后处理机体系结构 136

8.1.1 页面事件提取器 137

8.1.2 内容解析器 138

8.1.3 会话识别器 138

8.1.4 计算驻留时间 139

8.1.5 主机和引用站点解析器 140

8.2 小结 142

第2部分 把数据仓库引入Web 143

第9章 为什么要把数据仓库引入Web 143

9.1 Web拉动数据仓库 144

9.2 Web推动数据仓库 145

9.2.1 紧化用户界面反馈回路 145

9.2.2 查询与更新的整合 146

9.2.3 速度是不可商量的 146

9.2.4 Sun从不设置Web数据仓库 147

9.2.5 多媒体合并到通信中 148

9.2.6 Web是大规模定制的 149

9.2.7 网络仓库是深度分布式的 149

9.2.8 我们必须面对安全及其隐私问题 150

9.3 小结 151

10.1 两次革命之间的差异 152

第10章 设计用户体验 152

10.2 第二代用户界面指导方针 153

10.2.1 确保准瞬态性能 154

10.2.2 满足用户要求 160

10.2.3 让每个页面都成为愉快的体验 165

10.2.4 简单化过程 168

10.2.5 安定用户 170

10.2.6 提供分解问题的手段 171

10.2.7 建立信任 173

10.2.8 提供通信钩子(Communication Hook) 175

10.2.9 支持国际化透明 175

10.3 小结 176

第11章 通过网库驱动的数据挖掘 177

11.1 数据挖掘的起源 177

11.2 数据挖掘的行为 178

11.3 数据挖掘的准备工作 179

11.3.1 一般的网库数据转换 180

11.3.2 适用于所有形式的数据挖掘的数据转换 181

11.3.3 依赖于数据挖掘工具的特定的数据转换 182

11.4 将数据提交给数据挖掘工具 184

11.5 OLAP、数据挖掘和网库 187

11.6 小结 188

第12章 创建国际Web数据仓库 189

12.1 发展中的国际Web 190

12.1.1 UNICODE 190

12.1.2 并行的超文本和机器翻译 192

12.1.3 多语言搜索 193

12.1.4 时区转换服务 193

12.1.5 节日查找服务 195

12.2 国际网库技术 195

12.2.1 在多个时区和时间格式之间实现同步 195

12.2.2 支持多国日历和日期格式 196

12.2.3 集中多种货币形式的收入 197

12.2.4 处理国际名称和地址 199

12.2.5 支持不同的数字格式 204

12.2.6 支持国际电话号码 204

12.2.7 处理跨国查询、报表和对照序列 204

12.2.8 本地化在Web数据仓库中的应用 205

12.3 小结 206

第13章 Web数据仓库安全 207

13.1 推荐的安全技术 208

13.1.1 提供双因素认证 208

13.1.2 保护连接 210

13.1.3 将通过认证的用户与角色联系在一起 212

13.1.4 通过角色访问所有的网库对象 213

13.2 管理安全过程,而不是解决方案 214

13.3 小结 215

第14章 网库的缩放 216

14.1 网库不是Web服务器 216

14.2 点击流活动突变 217

14.2.1 上网人数增长 218

14.2.2 越来越多的点击率 219

14.2.3 用户级自动搜索 219

14.2.4 更深的经济渗透 220

14.2.5 一夜成名 220

14.2.6 IP成为一种通用传输协议 220

14.2.7 XML——通用传输 221

14.3 对数据仓库服务需求的剧变 221

14.4 软硬件的严重瓶颈 221

14.4.1 避免单一瓶颈 222

14.4.4 操作系统 224

14.4.3 物理上的考虑:托管 224

14.4.2 避免进程重复 224

14.4.5 编程语言 225

14.4.6 数据库 225

14.4.7 查询和报告软件 226

14.4.8 平衡电子邮件和链接的使用 226

14.4.9 硬件特性 227

14.5 粒度权衡 227

14.6 小结 228

第15章 管理网库项目 229

15.1 定义项目 229

15.2 确定角色 230

15.2.1 全体决策人员:主管与监督人 232

15.2.2 教练:项目经理和领导 232

15.2.3 常规阵容:核心项目团队 233

15.3 搜集业务需求和审计数据 236

15.4 计划并管理实现 237

15.5 启动系统 238

15.6 回过头来再做一遍 239

15.7 小结 239

第16章 网库的未来 240

16.1 CRM将继续推动Web数据仓库 240

16.2 更好地描述行为 241

16.3 我们最终将需要数据挖掘 242

16.4 ISP拥有一座金矿 243

16.5 寻求更好的搜索引擎 244

16.6 数据能否战胜存储和速度 245

16.7 数据库的完全转置 246

16.8 网站应用程序日志 246

16.9 每件东西都是一个模块 247

16.10 小结 248

相关图书
作者其它书籍
返回顶部