第1章 云时代概述 1
1.1 “云”概述 1
1.1.1 什么是云计算 2
1.1.2 给云计算一个说法 3
1.1.3 云计算的使用范围 3
1.1.4 云计算与一般托管环境的差别 4
1.2 云产生的背景 4
1.2.1 经济方面 4
1.2.2 社会层面 5
1.2.3 政治层面 6
1.2.4 技术方面 6
1.3 云计算特点 7
1.4 云时代的七大益处 8
1.5 云计算与其他超级计算的区别 11
1.5.1 云计算与网格计算的区别 11
1.5.2 云计算系统与传统超级计算机的区别 12
1.6 云计算的关键性技术 12
1.6.1 虚拟化 12
1.6.2 分布式文件系统 14
1.6.3 分布式数据库 15
1.6.4 资源管理技术 15
1.6.5 能耗管理技术 16
1.7 云计算基础 18
1.7.1 云计算的定义 18
1.7.2 云计算的特征 19
1.7.3 交付模式 19
1.7.4 部署模式 21
1.7.5 新的应用机遇 23
1.8 从传统IT到云 23
1.9 云计算的研究进展 27
1.1 0云计算的生成系统 28
1.1 1云计算时代对就业的影响 29
1.1 2大数据中的云 30
第2章 大数据概述 33
2.1 大数据概念 33
2.1.1 大数据的应用 33
2.1.2 大数据的战略意义 34
2.1.3 大数据的作用 34
2.1.4 大数据与传统数据库 34
2.1.5 大数据与Web 34
2.2 大数据的理解与实践 35
2.2.1 理解大数据 35
2.2.2 实践大数据 36
2.3 大数据的发展趋势 36
2.3.1 大数据对社会的影响 36
2.3.2 云平台数据更加完善 38
2.4 大数据的挑战、现状与展望 38
2.4.1 概述 38
2.4.2 期望特性 40
2.4.3 并行数据库 42
2.4.4 MapReduce 43
2.4.5 并行数据库和MapReduce的混合架构 47
2.4.6 研究现状 49
2.4.7 MapReduce与关系数据库技术的融合 50
2.4.8 展望研究 52
2.5 大数据行业应用及未来热点 53
2.5.1 分析大数据市场 53
2.5.2 分析大数据应用需求 53
2.6 大数据2012年回顾 54
2.6.1 2012年大数据新特征 54
2.6.2 进军大数据 55
2.6.3 新兴企业不断涌现 56
2.7 大数据引导IT支出 56
2.8 数据将变得更加重要 57
2.9 盘点全球13个大数据公司 59
第3章 数据挖掘 65
3.1 数据挖掘的定义 65
3.1.1 技术上的定义及含义 65
3.1.2 商业角度的定义 66
3.2 数据挖掘概述 66
3.2.1 数据挖掘的起源 66
3.2.2 数据挖掘方法论 67
3.2.3 数据挖掘常用方法 69
3.2.4 数据挖掘的实现步骤 71
3.2.5 数据挖掘的功能 71
3.2.6 数据挖掘常用技术 72
3.2.7 数据挖掘与传统分析方法的异同 78
3.2.8 数据挖掘和数据仓库 78
3.2.9 数据挖掘的应用 79
3.3 数据挖掘相关知识 80
3.3.1 词语的重要性 81
3.3.2 哈希函数 82
3.3.3 索引 84
3.3.4 二维存储器 85
3.3.5 自然对数的底e 85
3.3.6 幂定律 86
第4章 数据量化 87
4.1 量化分析简介 87
4.2 规划优质量化分析 91
4.2.1 量化分析开发规划的构成 91
4.2.2 文档 95
4.3 答案纲要 96
4.4 三角交叉法 103
4.5 高级量化分析 105
4.5.1 其他象限 106
4.5.2 量化分析未成熟组织的益处 106
4.5.3 重复业务流程 107
4.5.4 其他象限的量化分析 107
4.6 创建服务目录 110
4.7 构建标准和基准 113
4.8 量化数据谈投资 114
第5章 大规模文件系统MapReduce 115
5.1 分布式文件系统 115
5.1.1 NFS和AFS的区别 118
5.1.2 计算节点的物理结构 118
5.2 MapReduce模型 119
5.2.1 Map任务 120
5.2.2 分组与聚合 120
5.2.3 Reduce任务 120
5.3 MapReduce使用算法 123
5.3.1 向量乘法实现 123
5.3.2 内存处理 123
5.3.3 关系运算 124
5.3.4 分布文件系统实例 128
5.4 MapReduce复合键值对的使用 138
5.4.1 合并键值 138
5.4.2 用复合键排序 139
5.5 链接MapReduce作业 142
5.5.1 顺序链接MapReduce作业 142
5.5.2 复杂的MapReduce链接 143
5.5.3 前后处理的链接 143
5.5.4 链接不同的数据 145
5.6 MapReduce递归扩展 152
5.7 集群计算算法的效率问题 154
5.7.1 集群计算的通信开销模型 154
5.7.2 多路连接 155
第6章 相似项挖掘 157
6.1 近邻搜索的应用 157
6.1.1 Jaccard相似度 157
6.1.2 文档相似度 157
6.2 文档的shingling算法 162
6.2.1 k-shingle 162
6.2.2 大小选择 163
6.2.3 对shingle进行哈希 163
6.3 最小哈希 164
6.3.1 矩阵表示集合 164
6.3.2 最小哈希概述 164
6.3.3 Jaccard相似度 165
6.3.4 最小哈希签名 165
6.3.5 签名计算 166
6.4 语音文档局部敏感哈希算法 168
6.4.1 局部敏感哈希概述 168
6.4.2 行条化策略的分析 172
6.5 距离测试 174
6.5.1 距离测度的定义 174
6.5.2 欧氏距离 174
6.5.3 Jaccard距离 175
6.5.4 余弦距离 175
6.5.5 编辑距离 176
6.5.6 海明距离 177
6.6 其他距离测度的LSH函数族 178
6.6.1 海明距离的LSH函数族 178
6.6.2 随机超平面与余弦距离 179
6.6.3 欧氏距离的LSH函数族 180
6.7 LSH函数的应用 181
6.7.1 实体关联 181
6.7.2 指纹匹配 183
6.7.3 论文相似性检测服务 185
6.8 高相似度方法 186
6.8.1 相等项发现 186
6.8.2 集合字串表示法 187
6.8.3 长度过滤 187
6.8.4 前缀索引 188
6.8.5 位置信息使用 188
6.8.6 使用位置和长度信息的索引 190
第7章 HDFS存储海量数据 192
7.1 HDFS简介 192
7.1.1 HDFS的特点 192
7.1.2 HDFS的设计需求 193
7.1.3 HDFS体系结构 195
7.1.4 HDFS的可靠性措施 196
7.1.5 数据均衡 200
7.2 HDFS存取机制 200
7.3 图像存储 202
7.3.1 图像存储基本思想 202
7.3.2 图像存储设计目标 202
7.3.3 图像存储体系结构 203
7.3.4 系统功能结构 204
7.4 HDFS管理操作 205
7.4.1 权限管理 205
7.4.2 配额管理 207
7.4.3 文件归档 207
7.5 FS Shell使用指南 208
7.6 API使用 214
7.7 HDFS的缺点 216
7.8 HDFS存储海量数据 217
第8章 HBase存储百科数据 219
8.1 HBase的系统框架 219
8.2 HBase基本特征 222
8.2.1 RDBMS与HBase 222
8.2.2 NoSQL数据库 223
8.2.3 HBase的特点 225
8.3 HBase的基本接口 226
8.3.1 HBase访问接口 226
8.3.2 HBase的存储格式 227
8.3.3 HBase的读写流程 227
8.4 模块总体设计 228
8.4.1 数据库模块总体设计 228
8.4.2 模块详细设计 229
8.4.3 数据库模块交互设计 233
8.5 HBase数据模型 234
8.6 HBase的安装与配置 238
8.7 HBase实例分析 240
8.7.1 HBase的HFileOutputFormat 240
8.7.2 HBase的TableOutputFormat 243
第9章 大数据链接分析 247
9.1 链接分析中的数据采集研究 247
9.1.1 链接分析概述 247
9.1.2 相关研究 248
9.1.3 系统功能设计 249
9.1.4 实验 251
9.1.5 结论 252
9.2 PageRank工具 252
9.2.1 PageRank概述 253
9.2.2 PageRank定义 253
9.2.3 相关算法 255
9.2.4 避免终止点 256
9.2.5 采集器陷阱及“抽税”法 258
9.2.6 影响PageRank的因素 259
9.3 PageRank算法 259
9.4 搜索引擎研究 262
9.4.1 搜索引擎未来的发展方向 262
9.4.2 通用型搜索引擎 264
9.4.3 主题型搜索引擎 268
9.4.4 性能指标 270
9.5 链接作弊 270
9.5.1 垃圾农场的架构 270
9.5.2 垃圾农场的分析 271
9.5.3 TrustRank 272
9.5.4 垃圾质量 273
9.6 导航页和权威页 273
第10章 聚类 276
10.1 聚类概述 276
10.1.1 聚类的典型应用 276
10.1.2 聚类的典型要求 276
10.1.3 聚类的计算方法 277
10.1.4 聚类分析的特征 278
10.2 聚类技术 279
10.2.1 点、空间和距离 279
10.2.2 维数灾难 279
10.3 层次聚类 280
10.3.1 欧氏空间下的层次聚类 281
10.3.2 控制层次聚类的其他规则 284
10.3.3 非欧空间下的层次聚类 284
10.4 K-均值算法 285
10.4.1 K-均值算法的簇初始化 285
10.4.2 K值的选择 286
10.4.3 BFR算法 287
10.4.4 BFR算法中的数据处理 288
10.5 CURE算法 290
10.5.1 CURE算法流程 290
10.5.2 CURE算法设计 290
10.5.3 数据取样算法 293
10.6 流聚类及并行化 293
10.6.1 流计算模型 294
10.6.2 二次聚类算法 294
10.7 非欧空间下的聚类 297
10.7.1 GRGPF算法的簇表示 297
10.7.2 簇树的初始化 297
10.7.3 算法中加入点 298
10.7.4 分裂与合并 299
第11章 项集与系统 301
11.1 项集与系统概述 301
11.2 项集 302
11.2.1 规则 303
11.2.2 内存使用 304
11.2.3 单调性 305
11.2.4 二元组计数 305
11.2.5 A-Priori算法 306
11.2.6 频繁项集上的A-Priori算法 307
11.3 更大数据集处理 308
11.3.1 PCY算法 309
11.3.2 多阶段算法 310
11.3.3 多哈希算法 311
11.4 有限扫描算法 312
11.4.1 随机算法 312
11.4.2 SON算法 313
11.4.3 MapReduce算法 313
11.4.4 Toivonen算法 314
11.5 流中的频繁项 315
11.5.1 抽样法 315
11.5.2 衰减窗口的频繁项集 316
11.5.3 混合方法 316
11.6 推荐模型系统 317
11.6.1 效用矩阵 317
11.6.2 长尾现象 317
11.6.3 效用矩阵的填充 318
11.7 内容的推荐 318
11.7.1 项模型 319
11.7.2 项模型的表示 319
11.7.3 分类算法 320
11.8 协同过滤 321
11.8.1 协同过滤的优缺点 321
11.8.2 协同过滤案例 321
11.9 降维处理 322
11.9.1 基于中心流形理论的降维方法 322
11.9.2 Lyapunov-Schmidt(L-S)方法 323
11.9.3 Galerkin方法 324
11.9.4 正交分解技术的降维方法 327
11.9.5 其他降维方法 328
11.1 0Netflix大奖赛与推荐系统 331
参考文献 336