第一部分 大数据基础 3
第1章 理解大数据 3
1.1 概念与术语 4
1.1.1 数据集 4
1.1.2 数据分析 5
1.1.3 数据分析学 5
1.1.4 商务智能 11
1.1.5 关键绩效指标 11
1.2 大数据特征 12
1.2.1 容量 12
1.2.2 速率 13
1.2.3 多样性 13
1.2.4 真实性 14
1.2.5 价值 14
1.3 不同数据类型 15
1.3.1 结构化数据 16
1.3.2 非结构化数据 17
1.3.3 半结构化数据 17
1.3.4 元数据 18
1.4 案例学习背景 18
1.4.1 历史背景 18
1.4.2 技术基础和自动化环境 19
1.4.3 商业目标和障碍 20
1.5 案例学习 21
1.5.1 确定数据特征 22
1.5.2 确定数据类型 24
第2章 采用大数据的商业动机与驱动 25
2.1 市场动态 25
2.2 业务架构 27
2.3 业务流程管理 30
2.4 信息与通信技术 31
2.4.1 数据分析与数据科学 31
2.4.2 数字化 31
2.4.3 开源技术与商用硬件 32
2.4.4 社交媒体 33
2.4.5 超连通社区与设备 33
2.4.6 云计算 34
2.5 万物互联网 35
2.6 案例学习 35
第3章 大数据采用及规划考虑 39
3.1 组织的先决条件 40
3.2 数据获取 40
3.3 隐私性 40
3.4 安全性 41
3.5 数据来源 42
3.6 有限的实时支持 43
3.7 不同的性能挑战 43
3.8 不同的管理需求 43
3.9 不同的方法论 44
3.10 云 44
3.11 大数据分析的生命周期 45
3.11.1 商业案例评估 45
3.11.2 数据标识 47
3.11.3 数据获取与过滤 47
3.11.4 数据提取 48
3.11.5 数据验证与清理 49
3.11.6 数据聚合与表示 50
3.11.7 数据分析 52
3.11.8 数据可视化 52
3.11.9 分析结果的使用 53
3.12 案例学习 54
3.12.1 大数据分析的生命周期 55
3.12.2 商业案例评估 55
3.12.3 数据标识 56
3.12.4 数据获取与过滤 56
3.12.5 数据提取 57
3.12.6 数据验证与清理 57
3.12.7 数据聚合与表示 57
3.12.8 数据分析 57
3.12.9 数据可视化 58
3.12.10 分析结果的使用 58
第4章 企业级技术与大数据商务智能 59
4.1 联机事务处理 60
4.2 联机分析处理 60
4.3 抽取、转换和加载技术 61
4.4 数据仓库 61
4.5 数据集市 62
4.6 传统商务智能 62
4.6.1 即席报表 63
4.6.2 仪表板 63
4.7 大数据商务智能 65
4.7.1 传统数据可视化 65
4.7.2 大数据的数据可视化 66
4.8 案例学习 67
4.8.1 企业技术 67
4.8.2 大数据商务智能 68
第二部分 存储和分析大数据 71
第5章 大数据存储的概念 71
5.1 集群 72
5.2 文件系统和分布式文件系统 72
5.3 NoSQL 73
5.4 分片 74
5.5 复制 75
5.5.1 主从式复制 76
5.5.2 对等式复制 77
5.6 分片和复制 80
5.6.1 结合分片和主从式复制 80
5.6.2 结合分片和对等式复制 81
5.7 CAP定理 82
5.8 ACID 85
5.9 BASE 88
5.10 案例学习 91
第6章 大数据处理的概念 93
6.1 并行数据处理 93
6.2 分布式数据处理 94
6.3 Hadoop 94
6.4 处理工作量 95
6.4.1 批处理型 95
6.4.2 事务型 95
6.5 集群 96
6.6 批处理模式 97
6.6.1 MapReduce批处理 97
6.6.2 Map和Reduce任务 98
6.6.3 MapReduce的简单实例 103
6.6.4 理解MapReduce算法 104
6.7 实时模式处理 107
6.7.1 SCV原则 107
6.7.2 事件流处理 110
6.7.3 复杂事件处理 110
6.7.4 大数据实时处理与SCV 110
6.7.5 大数据实时处理与MapReduce 111
6.8 案例学习 112
6.8.1 处理工作量 112
6.8.2 批处理模式处理 112
6.8.3 实时模式处理 113
第7章 大数据存储技术 115
7.1 磁盘存储设备 115
7.1.1 分布式文件系统 116
7.1.2 RDBMS数据库 117
7.1.3 NoSQL数据库 119
7.1.4 NewSQL数据库 128
7.2 内存存储设备 129
7.2.1 内存数据网格 131
7.2.2 内存数据库 138
7.3 案例学习 141
第8章 大数据分析技术 143
8.1 定量分析 144
8.2 定性分析 145
8.3 数据挖掘 145
8.4 统计分析 146
8.4.1 A/B测试 146
8.4.2 相关性分析 147
8.4.3 回归性分析 149
8.5 机器学习 150
8.5.1 分类(有监督的机器学习) 151
8.5.2 聚类(无监督的机器学习) 152
8.5.3 异常检测 152
8.5.4 过滤 153
8.6 语义分析 154
8.6.1 自然语言处理 155
8.6.2 文本分析 155
8.6.3 情感分析 156
8.7 视觉分析 157
8.7.1 热点图 157
8.7.2 时间序列图 159
8.7.3 网络图 160
8.7.4 空间数据制图 161
8.8 案例学习 162
8.8.1 相关性分析 162
8.8.2 回归性分析 162
8.8.3 时间序列图 163
8.8.4 聚类 163
8.8.5 分类 163
附录A 案例结论 165
索引 167