第1章 大数据概述 1
1.1 问题的提出 2
1.1.1 电子数据迅速增加 2
1.1.2 数据孕育巨大的经济价值 3
1.1.3 数据是国家的核心资产 4
1.2 大数据的产生源泉 4
1.2.1 互联网世界 5
1.2.2 物理世界 6
1.3 大数据的概念 7
1.3.1 数据容量巨大 7
1.3.2 数据类型多 8
1.3.3 价值密度低 8
1.3.4 数据传播迅速 9
1.3.5 真实性 9
1.4 大数据的特性 9
1.4.1 价值 9
1.4.2 非结构性 9
1.4.3 不完备性 10
1.4.4 时效性 10
1.4.5 安全性 10
1.4.6 可靠性 10
1.5 大数据技术概述 10
1.5.1 大数据技术的主要内容 11
1.5.2 大数据的处理过程 12
1.5.3 大数据技术的特征 13
1.5.4 大数据的关键问题与关键技术 14
1.6 大数据应用趋势 16
1.6.1 大数据细分市场 17
1.6.2 大数据推动企业发展 17
1.6.3 大数据分析的新方法出现 17
1.6.4 大数据与云计算高度融合 17
1.6.5 大数据一体设备陆续出现 17
1.6.6 大数据安全日益重视 18
1.7 大数据应用 18
1.7.1 判断大数据应用成功的指标 18
1.7.2 大数据技术的应用 19
1.8 大数据的展望 22
1.8.1 资源与投入 23
1.8.2 工程技术 23
1.8.3 复杂网络分析 23
1.8.4 涉及众多领域 23
1.8.5 构建大数据生态环境 23
本章小结 23
第2章 科学研究四种范式 24
2.1 科学研究第一范式 25
2.1.1 科学实验特点 25
2.1.2 科学实验步骤 26
2.1.3 科学实验分类 26
2.1.4 科学实验构成 27
2.1.5 科学实验程序 28
2.1.6 科学研究第一范式使用原则 29
2.2 科学研究第二范式 30
2.2.1 科学理论的特征 30
2.2.2 科学理论的结构 31
2.2.3 科学理论的价值 31
2.2.4 建立科学理论体系的一般方法 32
2.3 科学研究第三范式 33
2.3.1 概述 33
2.3.2 离散模型的模拟 34
2.3.3 连续系统的模拟 35
2.3.4 模拟语言 35
2.4 科学研究第四范式 36
2.4.1 数据密集型计算 36
2.4.2 格雷法则 38
2.4.3 第四范式的核心内容 40
本章小结 41
第3章 分布系统设计的CAP理论 42
3.1 分布式系统的伸缩性 42
3.1.1 可伸缩性的概念 43
3.1.2 影响横向扩展的主要因素 44
3.2 横向扩展方案 47
3.2.1 可伸缩共享数据库 47
3.2.2 对等复制的横向扩展方案 48
3.2.3 链接服务器和分布式查询 49
3.2.4 分布式分区视图 50
3.2.5 数据依赖型路由的横向扩展 50
3.3 CAP理论 51
3.3.1 分布系统设计的核心系统需求 51
3.3.2 CAP定理 53
3.4 BASE模型 56
3.4.1 三个核心需求分析 56
3.4.2 ACID、BASE与CAP的关系 57
3.4.3 CAP与延迟 58
3.4.4 CAP理论的进一步研究 58
3.5 Web分布式系统设计 60
3.5.1 系统核心需求 60
3.5.2 系统服务 61
3.5.3 冗余 62
3.5.4 分区 62
本章小结 64
第4章 NoSQL数据库 65
4.1 NoSQL概述 65
4.1.1 非结构化问题 65
4.1.2 NoSQL的产生 66
4.2 NoSQL的特点与问题 67
4.2.1 NoSQL的特点 67
4.2.2 NoSQL问题 68
4.3 NoSQL的主要存储方式 69
4.3.1 键值存储方式 69
4.3.2 文档存储方式 72
4.3.3 列存储方式 73
4.3.4 图形存储方式 76
4.3.5 各种典型的存储方式所对应的NoSQL数据库 77
4.4 常用的NoSQL数据库 78
4.4.1 Cassandra 78
4.4.2 Lucene/Solr 78
4.4.3 Riak 79
4.4.4 CouchDB 79
4.4.5 Neo4J 79
4.4.6 Oracle的NoSQL 79
4.4.7 Hadoop的HBase 79
4.4.8 Bigtable/Accumulo/Hypertable 80
4.4.9 DynamoDB 80
4.4.10 MongoDB 80
本章小结 82
第5章 复杂网络 83
5.1 概述 83
5.1.1 复杂网络概念 84
5.1.2 社会网络概述 84
5.1.3 社会计算 86
5.2 社会网络应用 87
5.2.1 知识获取分析 87
5.2.2 知识类型与传递 88
5.2.3 知识创新 89
5.3 社会网络分析 89
5.3.1 社会网络分析概述 89
5.3.2 社会网络分析的原理 90
5.3.3 社会网络分析的特征 90
5.3.4 社会网络分析的常用方法 90
5.4 社会网络中的隐私保护 91
5.4.1 用户隐私面临的威胁 92
5.4.2 身份隐私攻击与保护 93
5.4.3 面向用户关系的攻击及保护 93
5.4.4 万维网用户隐私保护规范 93
5.5 社会感知计算 94
5.5.1 社会感知计算概念 94
5.5.2 社会感知计算的主要内容 94
5.6 人类通信方式 95
5.6.1 通信方式的演化 95
5.6.2 六度分隔理论 96
5.6.3 150法则 98
5.6.4 唯象理论与唯象方法 98
5.7 社交网站 99
5.7.1 社交网站概述 99
5.7.2 社交网站的作用 99
5.7.3 移动社交网络 100
5.7.4 Web 2.0网站 101
5.7.5 Web 2.0开发平台与必备要素 104
5.7.6 Web 3.0网站 105
本章小结 105
第6章 MapReduce分布编程模型 106
6.1 函数式编程范式 106
6.1.1 函数型语言 106
6.1.2 函数式编程 107
6.2 映射函数与化简函数 108
6.2.1 映射与映射函数 108
6.2.2 化简与化简函数 109
6.3 MapReduce计算 110
6.4 基于Hadoop平台的分布式计算 111
6.4.1 Hadoop概述 111
6.4.2 分布式系统与Hadoop 112
6.4.3 SQL数据库和Hadoop 113
6.4.4 基于Hadoop的分布式计算 114
本章小结 119
第7章 大数据存储 120
7.1 大数据存储概述 120
7.1.1 大数据存储模型 121
7.1.2 大数据存储问题 121
7.2 存储方式 122
7.2.1 存储介质 122
7.2.2 直接连接存储 122
7.2.3 网络连接存储 124
7.2.4 存储域网络存储 125
7.2.5 IP-SAN 126
7.2.6 三种存储方式的比较 126
7.3 大数据的存储 127
7.3.1 数据容量问题 127
7.3.2 大图数据 127
7.3.3 分布式存储的架构 129
7.3.4 数据存储管理 130
7.4 数据云存储 132
7.4.1 云存储的意义与问题 133
7.4.2 技术措施 133
7.5 数据存储的可靠性 135
7.5.1 磁盘与磁盘阵列的可靠性 136
7.5.2 文件系统的可靠性 138
本章小结 138
第8章 大数据分析 139
8.1 数据分析概述 140
8.1.1 数据分析的概念 140
8.1.2 数据分析的目的与意义 140
8.1.3 数据分析的基本方法 141
8.1.4 数据分析的类型 146
8.1.5 数据分析的步骤 147
8.2 大数据分析基础 147
8.2.1 可视化分析 148
8.2.2 数据挖掘 148
8.2.3 大数据预测分析 148
8.2.4 语义引擎 148
8.2.5 数据质量和数据管理 148
8.2.6 大数据的离线与在线分析 148
8.3 大数据预测分析 149
8.3.1 大数据预测分析关键因素 150
8.3.2 大数据预测分析演进方向 150
8.3.3 大数据预测分析相关问题 151
8.3.4 舆情监测与分析 152
8.3.5 舆情报告图表制作 153
8.4 大数据分析应用 154
8.4.1 为客户提供服务 154
8.4.2 优化业务流程 154
8.4.3 改善生活 155
8.4.4 提高医疗条件 155
8.4.5 提高体育成绩 155
8.4.6 优化机器和设备性能 155
8.4.7 改善安全和执法 155
8.4.8 改进和优化城市 155
8.4.9 金融交易 156
8.4.10 电信业务 156
8.4.11 销售 156
8.5 大数据分析平台与工具 156
8.5.1 大数据分析基础平台 156
8.5.2 大数据分析的工具 158
本章小结 160
第9章 大数据挖掘 161
9.1 数据挖掘概述 162
9.1.1 数据挖掘的定义 162
9.1.2 数据挖掘的分类 163
9.1.3 数据挖掘的技术 163
9.2 数据挖掘对象与过程 164
9.2.1 数据挖掘对象 164
9.2.2 数据挖掘过程 164
9.2.3 数据挖掘过程工作量 165
9.3 数据挖掘的常用方法 166
9.3.1 神经网络方法 166
9.3.2 遗传算法 166
9.3.3 决策树方法 166
9.3.4 粗集方法 166
9.3.5 覆盖正例排斥反例方法 167
9.3.6 统计分析方法 167
9.3.7 模糊集方法 167
9.4 数据挖掘的几个问题 167
9.4.1 数据挖掘与数据分析的区别 167
9.4.2 数据挖掘与数据仓库 167
9.4.3 数据挖掘和OLAP的比较 168
9.4.4 数据挖掘与人工智能 169
9.4.5 软硬件发展对数据挖掘的影响 169
9.4.6 数据挖掘和统计分析的区别 169
9.4.7 Web挖掘和数据挖掘的区别 170
9.5 关联规则 170
9.5.1 关联规则定义 170
9.5.2 关联规则分类 171
9.5.3 关联规则的挖掘过程 171
9.5.4 关联规则应用 172
9.6 数据挖掘的经典算法 172
9.6.1 Apriori算法集 173
9.6.2 划分算法 173
9.6.3 FP-树频集算法 173
9.7 大数据挖掘技术 173
9.7.1 大数据挖掘关键技术 174
9.7.2 大数据挖掘策略 176
9.8 大数据挖掘应用 176
9.8.1 市场营销 177
9.8.2 销售矿泉水 178
9.8.3 物流 178
9.8.4 CRM 179
本章小结 181
第10章 大数据可视化 182
10.1 数据可视化技术概述 182
10.1.1 数据可视化技术的产生史 183
10.1.2 数据可视化技术适用范围 183
10.1.3 信息展现方式 183
10.1.4 数据、信息及知识 185
10.1.5 交互式处理 185
10.2 科学可视化 185
10.2.1 科学可视化的概念与过程 186
10.2.2 大数据科学可视化的技术 186
10.3 信息可视化 189
10.3.1 信息可视化概念 189
10.3.2 知识发现 190
10.3.3 知识发现工具 191
10.3.4 信息可视化技术的应用 191
10.4 数据可视化应用 192
10.4.1 数据可视化的概念 192
10.4.2 数据可视化技术的特点 192
10.4.3 数据可视化技术的相关概念 193
10.4.4 数据可视化技术的应用 193
10.5 大数据可视分析 194
10.5.1 大数据可视分析的概念 195
10.5.2 大数据可视分析的方法 195
本章小结 198
第11章 大数据安全 199
11.1 数据安全概述 199
11.1.1 数据安全的定义 200
11.1.2 数据处理与存储的安全 200
11.1.3 数据安全的基本特点 200
11.1.4 威胁数据安全的主要因素 201
11.1.5 安全制度与防护技术 202
11.1.6 典型应用 203
11.2 安全措施实现 208
11.2.1 网络分段 208
11.2.2 数据链路层的物理分段 208
11.2.3 VLAN的划分 208
11.3 电子商务安全 209
11.3.1 计算机网络安全的内容 209
11.3.2 计算机商务交易安全的内容 210
11.4 大数据安全 211
11.4.1 大数据的不安全因素 211
11.4.2 大数据安全的关键问题 212
11.4.3 大数据安全措施 213
11.5 云安全 214
11.5.1 云计算中用户的安全需求 214
11.5.2 威胁模型 215
11.5.3 云安全的支撑技术问题 215
11.5.4 用户数据隐私保护 216
11.5.5 云计算执行环境的可信性 216
11.5.6 资源共享问题 217
本章小结 217
第12章 大数据机器学习 218
12.1 机器学习概述 219
12.1.1 机器学习的产生与发展 219
12.1.2 机器学习的概念 219
12.1.3 机器学习理论及研究 220
12.1.4 机器学习系统的结构 221
12.2 机器学习类型 222
12.2.1 基于学习策略的学习分类 222
12.2.2 基于应用领域的学习分类 223
12.2.3 基于综合因素的学习分类 223
12.3 知识表示形式 224
12.4 大数据机器学习 225
12.4.1 大数据机器学习的特点 226
12.4.2 大数据机器学习的评测指标 227
12.5 大数据机器学习的应用 228
12.5.1 基于大数据的空气质量推断 228
12.5.2 人与建筑的关系分析 228
12.5.3 针对全球问题的预测模型 229
12.5.4 全球地表覆盖制图可视化与数据分析 229
本章小结 229
第13章 大数据推荐技术 230
13.1 概述 231
13.1.1 推荐系统的产生与发展 231
13.1.2 推荐系统的概念 231
13.2 推荐系统架构 232
13.2.1 用户特征提取模块 232
13.2.2 相关物品检索模块 232
13.2.3 推荐结果排序模块 232
13.3 推荐系统类型 232
13.3.1 基于用户行为数据推荐 232
13.3.2 基于用户标签数据推荐 233
13.3.3 基于上下文信息推荐 233
13.3.4 基于社交网络数据推荐 233
13.4 推荐系统的评判标准 234
13.5 推荐算法 235
13.5.1 基于人口统计学的推荐算法 235
13.5.2 基于内容的推荐算法 235
13.5.3 协同过滤推荐算法 236
13.5.4 混合推荐算法 238
13.6 推荐模式与系统 238
13.6.1 推荐模式 238
13.6.2 下一代推荐系统 239
13.7 大数据推荐技术 240
13.7.1 数据稀疏性 241
13.7.2 大数据推荐系统冷启动 241
13.7.3 多样性与精确性的两难命题 241
13.7.4 增量计算 242
13.7.5 推荐系统的鲁棒性 242
13.7.6 推荐系统效果评估 242
13.7.7 用户行为模式的挖掘和利用 242
13.7.8 用户界面与用户体验 243
13.7.9 多维数据的交叉利用 243
13.7.10 社会推荐 244
13.8 大数据人才推荐系统 244
本章小结 245
第14章 数据科学与数据思维 246
14.1 数据科学概述 246
14.1.1 数据科学定义与信息化过程 246
14.1.2 数据科学研究内容 247
14.1.3 数据科学的研究过程与体系框架 248
14.2 大数据研究方式 249
14.2.1 大数据分析的是全面的数据 249
14.2.2 重视数据的复杂性与弱化精确性 251
14.2.3 关注数据的相关性而非因果关系 251
14.3 数据专家 252
14.3.1 数据科学家 252
14.3.2 数据工程师 254
14.4 数据思维 254
14.4.1 思维的概念与特征 254
14.4.2 思维的形成 256
14.4.3 计算思维 258
14.4.4 网络思维 260
14.4.5 系统思维 263
14.4.6 大数据思维 264
本章小结 264
参考文献 265