第1章 大数据安全的概念 1
1.1 大数据的概念和内涵 1
1.2 大数据的应用 2
1.2.1 从一个小故事讲起 2
1.2.2 谷歌流感趋势 3
1.2.3 华尔街利用微博数据预测股票 3
1.2.4 利用大数据预测美国大选 4
1.3 理解大数据安全 5
1.4 大数据隐私与安全 6
1.4.1 隐私的定义 6
1.4.2 安全隐私与技术进步的关系 7
1.4.3 隐私与法律 8
1.4.4 欧盟《通用数据保护条例》 11
1.4.5 我国的《信息安全技术个人信息安全规范》 12
1.5 本章小结 13
本章参考文献 13
第2章 基础知识 15
2.1 本章引言 15
2.2 密码算法 15
2.2.1 密码学的历史 15
2.2.2 基于密钥的加密算法 16
2.2.3 香农(Shannon)的密码设计思想 16
2.2.4 流密码 17
2.2.5 分组密码算法 19
2.2.6 消息的完整性 22
2.2.7 公钥加密体制 22
2.2.8 小结 25
2.3 网络协议 26
2.3.1 IPSec 26
2.3.2 TLS/SSL 27
2.3.3 DTLS 30
2.4 身份认证与访问控制 31
2.4.1 身份认证的概念和常用方法 31
2.4.2 单点登录 33
2.4.3 访问控制 34
2.4.4 等级保护 36
2.4.5 开放授权协议 39
2.5 本章小结 41
本章参考文献 41
第3章 大数据服务架构及其安全 43
3.1 本章引言 43
3.2 网络服务系统架构 43
3.3 Web Services 45
3.3.1 传输规范 45
3.3.2 消息规范 45
3.3.3 描述规范 46
3.3.4 发布和发现规范 46
3.3.5 Web Services安全 46
3.3.6 应用与挑战 47
3.4 REST 49
3.4.1 概念 49
3.4.2 特点 49
3.4.3 优势 49
3.5 事件驱动SOA与发布订阅技术 50
3.5.1 事件驱动SOA 51
3.4.2 事件驱动的微服务架构 51
3.5.3 发布订阅技术系统架构 52
3.5.4 订阅模型与路由算法 54
3.5.5 机遇与挑战 56
3.5.6 应用 57
3.6 微服务 59
3.6.1 微服务架构 59
3.6.2 微服务安全概述 60
3.6.3 通信安全 60
3.6.4 身份认证 61
3.6.5 访问控制 63
3.7 本章小结 64
本章参考文献 65
第4章 可信计算环境 66
4.1 本章引言 66
4.2 可信执行环境 66
4.2.1 可信执行环境的基本概念 66
4.2.2 TEE的架构 67
4.2.3 TEE的启动过程 68
4.2.4 RichOS、TEE与SE的比较 68
4.2.5 TEE的应用 72
4.2.6 TEE的实现 73
4.3 TrustZone 74
4.3.1 TrustZone的由来 74
4.3.2 TrustZone的基本概念 75
4.3.3 TrustZone的原理和设计 76
4.3.4 安全启动 81
4.3.5 TrustZone的实现 82
4.3.6 其他 82
4.4 SGX 83
4.4.1 SGX技术 83
4.4.2 SGX的原理 85
4.4.3 SGX Enclave的创建 85
4.4.4 SGX Enclave的启动和销毁 86
4.4.5 创建Enclave可信通信通道 86
4.4.6 SGX的远端验证 87
4.4.7 SGX开发环境简介及搭建 88
4.5 本章小结 89
本章参考文献 90
第5章 大数据处理与存储及其安全隐私 91
5.1 本章引言 91
5.2 云计算基础 91
5.2.1 云计算的定义与特征 91
5.2.2 云服务的主要模式 92
5.2.3 部署方式 92
5.3 大数据处理及其安全隐私技术 93
5.3.1 谷歌的MapReduce 93
5.3.2 开源系统:Hadoop 95
5.3.3 安全机制:Sentry 96
5.3.4 同态加密 97
5.3.5 私有信息检索 99
5.4 虚拟化技术及其安全 101
5.4.1 虚拟机技术 101
5.4.2 运维开发一体化 103
5.4.3 容器技术 104
5.4.4 容器的部署 106
5.4.5 容器的安全 111
5.4.6 虚拟机的安全 115
5.4.7 基于虚拟机的入侵分析 115
5.5 安全多方计算 116
5.5.1 百万富翁问题 116
5.5.2 安全多方计算模型 117
5.5.3 平均工资问题 118
5.5.4 应用与挑战 119
5.6 大数据存储及其安全隐私 119
5.6.1 GFS 119
5.6.2 BigTable 120
5.6.3 云存储的应用及其安全问题 121
5.6.4 数据完整性机制 121
5.6.5 隐私保护机制 123
5.7 本章小结 124
本章参考文献 125
第6章 大数据共享及其安全隐私 128
6.1 本章引言 128
6.2 隐私的概念 128
6.2.1 定义 128
6.2.2 隐私的分类 129
6.2.3 隐私的度量与量化表示 129
6.2.4 完美隐私 129
6.2.5 威胁分析 129
6.3 用户隐私泄露事件 130
6.3.1 美国在线(AOL)数据发布 130
6.3.2 “Netflix奖”数据研究 131
6.3.3 社交网络上隐私泄露事件 132
6.4 数据匿名化技术 132
6.4.1 无处不在的匿名化 132
6.4.2 匿名技术:发布-遗忘模型 134
6.5 匿名化技术与反匿名化技术的博弈 137
6.5.1 K匿名隐私保护模型 137
6.5.2 ?-多样性隐私保护模型 139
6.5.3 T相近隐私保护模型 140
6.6 差分隐私技术 141
6.6.1 差分隐私模型简介 141
6.6.2 差分隐私技术工作原理 141
6.6.3 应用与挑战 143
6.7 本章小结 143
本章参考文献 143
第7章 大数据算法及其安全 145
7.1 本章引言 145
7.2 大数据算法基础 145
7.2.1 数学模型 145
7.2.2 搜索引擎算法的基本原理 147
7.2.3 电子商务中的推荐算法 149
7.2.4 大数据时代的新需求 150
7.2.5 机器学习算法 150
7.2.6 众包 153
7.3 对大数据算法的攻击 155
7.3.1 通过伪造共同访问对推荐系统进行攻击 155
7.3.2 搜索引擎优化 157
7.3.3 诱导分类器产生错误分类 158
7.3.4 诱骗视觉分类算法 159
7.4 本章小结 161
本章参考文献 161
第8章 大数据服务的认证与访问控制 163
8.1 本章引言 163
8.2 身份认证技术 163
8.2.1 身份认证技术基础 163
8.2.2 基于生物特征的认证 164
8.2.3 多因子认证 164
8.2.4 把身份认证视为一个分类器 166
8.2.5 持续认证 167
8.2.6 认证信息的存储 167
8.3 大数据时代的访问控制技术 169
8.3.1 访问控制的基本概念 169
8.3.2 访问控制的常用方法 169
8.3.3 终端数据的访问控制技术 171
8.3.4 云环境下的细粒度访问控制技术 171
8.3.5 开源系统CryptDB 171
8.4 本章小结 174
本章参考文献 174
第9章 大数据采集及其安全隐私 177
9.1 本章引言 177
9.2 大数据采集与管理 177
9.2.1 传统的数据采集技术 178
9.2.2 大数据给数据采集带来新的挑战 179
9.2.3 大数据采集技术 179
9.2.4 数据的非法采集现象 179
9.2.5 数据采集平台软件 180
9.3 无线接入网络的安全 181
9.3.1 无线接入网络的技术标准 181
9.3.2 无线接入网络的认证和加密 182
9.4 匿名通信 184
9.4.1 基本概念 184
9.4.2 匿名通信的基本框架 184
9.4.3 技术方案 185
9.5 应用层隐私保护 186
9.5.1 什么是HTTPS? 186
9.5.2 计算资源问题 186
9.5.3 时延问题 187
9.5.4 SSL安全证书 190
9.5.5 证书的使用成本 191
9.5.6 安全问题 191
9.5.7 端到端的加密 195
9.6 浏览器的DNT标准 196
9.6.1 DNT的历史 196
9.6.2 DNT的困境 197
9.6.3 技术方案 197
9.7 本章小结 198
本章参考文献 198
第10章 基于大数据技术的攻击与防御 202
10.1 本章引言 202
10.2 基于大数据的网络安全检测 204
10.2.1 DDoS攻击风险分析 204
10.2.2 DDoS攻击技术分析 205
10.2.3 安全产品ADS应用分析 207
10.3 面向网络内容安全的大数据挖掘分析 209
10.3.1 网络舆情风险分析 210
10.3.2 网络舆情监测关键技术分析 212
10.3.3 高校网络舆情监测系统应用分析 214
10.4 基于态势感知的网络安全管理技术 218
10.4.1 APT风险分析 220
10.4.2 APT攻击防御技术分析 222
10.4.3 APT攻击检测系统应用分析 223
本章参考文献 226
附录 CryptDB 229