《大数据之路 阿里巴巴大数据实践》PDF下载

  • 购买积分:12 如何计算积分?
  • 作  者:阿里巴巴数据技术及产品部著
  • 出 版 社:北京:电子工业出版社
  • 出版年份:2017
  • ISBN:9787121314384
  • 页数:322 页
图书介绍:《大数据之路:阿里巴巴大数据实践》是由阿里巴巴数据技术及产品部的几位资深员工结合实践完成的一本大数据实践力作。主要分析阿里巴巴近几年的数据挖掘、分析、应用的探索经历。本书适合所有搞数据研究、数据分析的个人或企业学习参考。

第1章 总述 1

第1篇 数据技术篇 8

第2章 日志采集 8

2.1浏览器的页面日志采集 8

2.1.1页面浏览日志采集流程 9

2.1.2页面交互日志采集 14

2.1.3页面日志的服务器端清洗和预处理 15

2.2无线客户端的日志采集 16

2.2.1页面事件 17

2.2.2控件点击及其他事件 18

2.2.3特殊场景 19

2.2.4 H5 & Native日志统一 20

2.2.5设备标识 22

2.2.6日志传输 23

2.3日志采集的挑战 24

2.3.1典型场景 24

2.3.2大促保障 26

第3章 数据同步 29

3.1数据同步基础 29

3.1.1直连同步 30

3.1.2数据文件同步 30

3.1.3数据库日志解析同步 31

3.2阿里数据仓库的同步方式 35

3.2.1批量数据同步 35

3.2.2实时数据同步 37

3.3数据同步遇到的问题与解决方案 39

3.3.1分库分表的处理 39

3.3.2高效同步和批量同步 41

3.3.3增量与全量同步的合并 42

3.3.4同步性能的处理 43

3.3.5数据漂移的处理 45

第4章 离线数据开发 48

4.1数据开发平台 48

4.1.1统一计算平台 49

4.1.2统一开发平台 53

4.2任务调度系统 58

4.2.1背景 58

4.2.2介绍 59

4.2.3特点及应用 64

第5章 实时技术 68

5.1简介 69

5.2流式技术架构 71

5.2.1数据采集 72

5.2.2数据处理 74

5.2.3数据存储 78

5.2.4数据服务 80

5.3流式数据模型 80

5.3.1数据分层 80

5.3.2多流关联 83

5.3.3维表使用 84

5.4大促挑战&保障 86

5.4.1大促特征 86

5.4.2大促保障 87

第6章 数据服务 91

6.1服务架构演进 91

6.1.1 DWSOA 92

6.1.2 OpenAPI 93

6.1.3 SmartDQ 94

6.1.4统一的数据服务层 96

6.2技术架构 97

6.2.1 SmartDQ 97

6.2.2 iPush 100

6.2.3 Lego 101

6.2.4 uTimng 102

6.3最佳实践 103

6.3.1性能 103

6.3.2稳定性 111

第7章 数据挖掘 116

7.1数据挖掘概述 116

7.2数据挖掘算法平台 117

7.3数据挖掘中台体系 119

7.3.1挖掘数据中台 120

7.3.2挖掘算法中台 122

7.4数据挖掘案例 123

7.4.1用户画像 123

7.4.2互联网反作弊 125

第2篇 数据模型篇 130

第8章 大数据领域建模综述 130

8.1为什么需要数据建模 130

8.2关系数据库系统和数据仓库 131

8.3从OLTP和OLAP系统的区别看模型方法论的选择 132

8.4典型的数据仓库建模方法论 132

8.4.1 ER模型 132

8.4.2维度模型 133

8.4.3 Data Vault模型 134

8.4.4 Anchor模型 135

8.5阿里巴巴数据模型实践综述 136

第9章 阿里巴巴数据整合及管理体系 138

9.1概述 138

9.1.1定位及价值 139

9.1.2体系架构 139

9.2规范定义 140

9.2.1名词术语 141

9.2.2指标体系 141

9.3模型设计 148

9.3.1指导理论 148

9.3.2模型层次 148

9.3.3基本原则 150

9.4模型实施 152

9.4.1业界常用的模型实施过程 152

9.4.2 OneData实施过程 154

第10章 维度设计 159

10.1维度设计基础 159

10.1.1维度的基本概念 159

10.1.2维度的基本设计方法 160

10.1.3维度的层次结构 162

10.1.4规范化和反规范化 163

10.1.5一致性维度和交叉探查 165

10.2维度设计高级主题 166

10.2.1维度整合 166

10.2.2水平拆分 169

10.2.3垂直拆分 170

10.2.4历史归档 171

10.3维度变化 172

10.3.1缓慢变化维 172

10.3.2快照维表 174

10.3.3极限存储 175

10.3.4微型维度 178

10.4特殊维度 180

10.4.1递归层次 180

10.4.2行为维度 184

10.4.3多值维度 185

10.4.4多值属性 187

10.4.5杂项维度 188

第11章 事实表设计 190

11.1事实表基础 190

11.1.1事实表特性 190

11.1.2事实表设计原则 191

11.1.3事实表设计方法 193

11.2事务事实表 196

11.2.1设计过程 196

11.2.2单事务事实表 200

11.2.3多事务事实表 202

11.2.4两种事实表对比 206

11.2.5父子事实的处理方式 208

11.2.6事实的设计准则 209

11.3周期快照事实表 210

11.3.1特性 210

11.3.2实例 212

11.3.3注意事项 217

11.4累积快照事实表 218

11.4.1设计过程 218

11.4.2特点 221

11.4.3特殊处理 223

11.4.4物理实现 225

11.5三种事实表的比较 227

11.6无事实的事实表 228

11.7聚集型事实表 228

11.7.1聚集的基本原则 229

11.7.2聚集的基本步骤 229

11.7.3阿里公共汇总层 230

11.7.4聚集补充说明 234

第3篇 数据管理篇 236

第12章 元数据 236

12.1元数据概述 236

12.1.1元数据定义 236

12.1.2元数据价值 237

12.1.3统一元数据体系建设 238

12.2元数据应用 239

12.2.1 Data Profile 239

12.2.2元数据门户 241

12.2.3应用链路分析 241

12.2.4数据建模 242

12.2.5驱动ETL开发 243

第13章 计算管理 245

13.1系统优化 245

13.1.1 HBO 246

13.1.2 CBO 249

13.2任务优化 256

13.2.1 Map倾斜 257

13.2.2 Join倾斜 261

13.2.3 Reduce倾斜 269

第14章 存储和成本管理 275

14.1数据压缩 275

14.2数据重分布 276

14.3存储治理项优化 277

14.4生命周期管理 278

14.4.1生命周期管理策略 278

14.4.2通用的生命周期管理矩阵 280

14.5数据成本计量 283

14.6数据使用计费 284

第15章 数据质量 285

15.1数据质量保障原则 285

15.2数据质量方法概述 287

15.2.1消费场景知晓 289

15.2.2数据加工过程卡点校验 292

15.2.3风险点监控 295

15.2.4质量衡量 299

第4篇 数据应用篇 304

第16章 数据应用 304

16.1生意参谋 305

16.1.1背景概述 305

16.1.2功能架构与技术能力 307

16.1.3商家应用实践 310

16.2对内数据产品平台 311

16.2.1定位 311

16.2.2产品建设历程 312

16.2.3整体架构介绍 316

附录A本书插图索引 319