当前位置:首页 > 工业技术
云时代的大数据
云时代的大数据

云时代的大数据PDF电子书下载

工业技术

  • 电子书积分:12 积分如何计算积分?
  • 作 者:周品编著
  • 出 版 社:北京:电子工业出版社
  • 出版年份:2013
  • ISBN:9787121216442
  • 页数:338 页
图书介绍:本书以云计算为基石,从概念、研究、应用角度出发,系统地介绍了数据爆炸时代下的大数据。首先介绍了云计算及大数据的基础知识,让读者对云计算及大数据有概要认识;然后根据需要介绍了Hadoop软件下的MapReduce、HDFS及HBase这几个组件;接着全面系统地介绍了云时代下的大数据,主要包括大数据的链接、聚类、项集、系统、相似项挖掘及数据量化等内容,让读者挖掘云时代大数据体系下的效益、价值及研究方向。
《云时代的大数据》目录

第1章 云时代概述 1

1.1 “云”概述 1

1.1.1 什么是云计算 2

1.1.2 给云计算一个说法 3

1.1.3 云计算的使用范围 3

1.1.4 云计算与一般托管环境的差别 4

1.2 云产生的背景 4

1.2.1 经济方面 4

1.2.2 社会层面 5

1.2.3 政治层面 6

1.2.4 技术方面 6

1.3 云计算特点 7

1.4 云时代的七大益处 8

1.5 云计算与其他超级计算的区别 11

1.5.1 云计算与网格计算的区别 11

1.5.2 云计算系统与传统超级计算机的区别 12

1.6 云计算的关键性技术 12

1.6.1 虚拟化 12

1.6.2 分布式文件系统 14

1.6.3 分布式数据库 15

1.6.4 资源管理技术 15

1.6.5 能耗管理技术 16

1.7 云计算基础 18

1.7.1 云计算的定义 18

1.7.2 云计算的特征 19

1.7.3 交付模式 19

1.7.4 部署模式 21

1.7.5 新的应用机遇 23

1.8 从传统IT到云 23

1.9 云计算的研究进展 27

1.1 0云计算的生成系统 28

1.1 1云计算时代对就业的影响 29

1.1 2大数据中的云 30

第2章 大数据概述 33

2.1 大数据概念 33

2.1.1 大数据的应用 33

2.1.2 大数据的战略意义 34

2.1.3 大数据的作用 34

2.1.4 大数据与传统数据库 34

2.1.5 大数据与Web 34

2.2 大数据的理解与实践 35

2.2.1 理解大数据 35

2.2.2 实践大数据 36

2.3 大数据的发展趋势 36

2.3.1 大数据对社会的影响 36

2.3.2 云平台数据更加完善 38

2.4 大数据的挑战、现状与展望 38

2.4.1 概述 38

2.4.2 期望特性 40

2.4.3 并行数据库 42

2.4.4 MapReduce 43

2.4.5 并行数据库和MapReduce的混合架构 47

2.4.6 研究现状 49

2.4.7 MapReduce与关系数据库技术的融合 50

2.4.8 展望研究 52

2.5 大数据行业应用及未来热点 53

2.5.1 分析大数据市场 53

2.5.2 分析大数据应用需求 53

2.6 大数据2012年回顾 54

2.6.1 2012年大数据新特征 54

2.6.2 进军大数据 55

2.6.3 新兴企业不断涌现 56

2.7 大数据引导IT支出 56

2.8 数据将变得更加重要 57

2.9 盘点全球13个大数据公司 59

第3章 数据挖掘 65

3.1 数据挖掘的定义 65

3.1.1 技术上的定义及含义 65

3.1.2 商业角度的定义 66

3.2 数据挖掘概述 66

3.2.1 数据挖掘的起源 66

3.2.2 数据挖掘方法论 67

3.2.3 数据挖掘常用方法 69

3.2.4 数据挖掘的实现步骤 71

3.2.5 数据挖掘的功能 71

3.2.6 数据挖掘常用技术 72

3.2.7 数据挖掘与传统分析方法的异同 78

3.2.8 数据挖掘和数据仓库 78

3.2.9 数据挖掘的应用 79

3.3 数据挖掘相关知识 80

3.3.1 词语的重要性 81

3.3.2 哈希函数 82

3.3.3 索引 84

3.3.4 二维存储器 85

3.3.5 自然对数的底e 85

3.3.6 幂定律 86

第4章 数据量化 87

4.1 量化分析简介 87

4.2 规划优质量化分析 91

4.2.1 量化分析开发规划的构成 91

4.2.2 文档 95

4.3 答案纲要 96

4.4 三角交叉法 103

4.5 高级量化分析 105

4.5.1 其他象限 106

4.5.2 量化分析未成熟组织的益处 106

4.5.3 重复业务流程 107

4.5.4 其他象限的量化分析 107

4.6 创建服务目录 110

4.7 构建标准和基准 113

4.8 量化数据谈投资 114

第5章 大规模文件系统MapReduce 115

5.1 分布式文件系统 115

5.1.1 NFS和AFS的区别 118

5.1.2 计算节点的物理结构 118

5.2 MapReduce模型 119

5.2.1 Map任务 120

5.2.2 分组与聚合 120

5.2.3 Reduce任务 120

5.3 MapReduce使用算法 123

5.3.1 向量乘法实现 123

5.3.2 内存处理 123

5.3.3 关系运算 124

5.3.4 分布文件系统实例 128

5.4 MapReduce复合键值对的使用 138

5.4.1 合并键值 138

5.4.2 用复合键排序 139

5.5 链接MapReduce作业 142

5.5.1 顺序链接MapReduce作业 142

5.5.2 复杂的MapReduce链接 143

5.5.3 前后处理的链接 143

5.5.4 链接不同的数据 145

5.6 MapReduce递归扩展 152

5.7 集群计算算法的效率问题 154

5.7.1 集群计算的通信开销模型 154

5.7.2 多路连接 155

第6章 相似项挖掘 157

6.1 近邻搜索的应用 157

6.1.1 Jaccard相似度 157

6.1.2 文档相似度 157

6.2 文档的shingling算法 162

6.2.1 k-shingle 162

6.2.2 大小选择 163

6.2.3 对shingle进行哈希 163

6.3 最小哈希 164

6.3.1 矩阵表示集合 164

6.3.2 最小哈希概述 164

6.3.3 Jaccard相似度 165

6.3.4 最小哈希签名 165

6.3.5 签名计算 166

6.4 语音文档局部敏感哈希算法 168

6.4.1 局部敏感哈希概述 168

6.4.2 行条化策略的分析 172

6.5 距离测试 174

6.5.1 距离测度的定义 174

6.5.2 欧氏距离 174

6.5.3 Jaccard距离 175

6.5.4 余弦距离 175

6.5.5 编辑距离 176

6.5.6 海明距离 177

6.6 其他距离测度的LSH函数族 178

6.6.1 海明距离的LSH函数族 178

6.6.2 随机超平面与余弦距离 179

6.6.3 欧氏距离的LSH函数族 180

6.7 LSH函数的应用 181

6.7.1 实体关联 181

6.7.2 指纹匹配 183

6.7.3 论文相似性检测服务 185

6.8 高相似度方法 186

6.8.1 相等项发现 186

6.8.2 集合字串表示法 187

6.8.3 长度过滤 187

6.8.4 前缀索引 188

6.8.5 位置信息使用 188

6.8.6 使用位置和长度信息的索引 190

第7章 HDFS存储海量数据 192

7.1 HDFS简介 192

7.1.1 HDFS的特点 192

7.1.2 HDFS的设计需求 193

7.1.3 HDFS体系结构 195

7.1.4 HDFS的可靠性措施 196

7.1.5 数据均衡 200

7.2 HDFS存取机制 200

7.3 图像存储 202

7.3.1 图像存储基本思想 202

7.3.2 图像存储设计目标 202

7.3.3 图像存储体系结构 203

7.3.4 系统功能结构 204

7.4 HDFS管理操作 205

7.4.1 权限管理 205

7.4.2 配额管理 207

7.4.3 文件归档 207

7.5 FS Shell使用指南 208

7.6 API使用 214

7.7 HDFS的缺点 216

7.8 HDFS存储海量数据 217

第8章 HBase存储百科数据 219

8.1 HBase的系统框架 219

8.2 HBase基本特征 222

8.2.1 RDBMS与HBase 222

8.2.2 NoSQL数据库 223

8.2.3 HBase的特点 225

8.3 HBase的基本接口 226

8.3.1 HBase访问接口 226

8.3.2 HBase的存储格式 227

8.3.3 HBase的读写流程 227

8.4 模块总体设计 228

8.4.1 数据库模块总体设计 228

8.4.2 模块详细设计 229

8.4.3 数据库模块交互设计 233

8.5 HBase数据模型 234

8.6 HBase的安装与配置 238

8.7 HBase实例分析 240

8.7.1 HBase的HFileOutputFormat 240

8.7.2 HBase的TableOutputFormat 243

第9章 大数据链接分析 247

9.1 链接分析中的数据采集研究 247

9.1.1 链接分析概述 247

9.1.2 相关研究 248

9.1.3 系统功能设计 249

9.1.4 实验 251

9.1.5 结论 252

9.2 PageRank工具 252

9.2.1 PageRank概述 253

9.2.2 PageRank定义 253

9.2.3 相关算法 255

9.2.4 避免终止点 256

9.2.5 采集器陷阱及“抽税”法 258

9.2.6 影响PageRank的因素 259

9.3 PageRank算法 259

9.4 搜索引擎研究 262

9.4.1 搜索引擎未来的发展方向 262

9.4.2 通用型搜索引擎 264

9.4.3 主题型搜索引擎 268

9.4.4 性能指标 270

9.5 链接作弊 270

9.5.1 垃圾农场的架构 270

9.5.2 垃圾农场的分析 271

9.5.3 TrustRank 272

9.5.4 垃圾质量 273

9.6 导航页和权威页 273

第10章 聚类 276

10.1 聚类概述 276

10.1.1 聚类的典型应用 276

10.1.2 聚类的典型要求 276

10.1.3 聚类的计算方法 277

10.1.4 聚类分析的特征 278

10.2 聚类技术 279

10.2.1 点、空间和距离 279

10.2.2 维数灾难 279

10.3 层次聚类 280

10.3.1 欧氏空间下的层次聚类 281

10.3.2 控制层次聚类的其他规则 284

10.3.3 非欧空间下的层次聚类 284

10.4 K-均值算法 285

10.4.1 K-均值算法的簇初始化 285

10.4.2 K值的选择 286

10.4.3 BFR算法 287

10.4.4 BFR算法中的数据处理 288

10.5 CURE算法 290

10.5.1 CURE算法流程 290

10.5.2 CURE算法设计 290

10.5.3 数据取样算法 293

10.6 流聚类及并行化 293

10.6.1 流计算模型 294

10.6.2 二次聚类算法 294

10.7 非欧空间下的聚类 297

10.7.1 GRGPF算法的簇表示 297

10.7.2 簇树的初始化 297

10.7.3 算法中加入点 298

10.7.4 分裂与合并 299

第11章 项集与系统 301

11.1 项集与系统概述 301

11.2 项集 302

11.2.1 规则 303

11.2.2 内存使用 304

11.2.3 单调性 305

11.2.4 二元组计数 305

11.2.5 A-Priori算法 306

11.2.6 频繁项集上的A-Priori算法 307

11.3 更大数据集处理 308

11.3.1 PCY算法 309

11.3.2 多阶段算法 310

11.3.3 多哈希算法 311

11.4 有限扫描算法 312

11.4.1 随机算法 312

11.4.2 SON算法 313

11.4.3 MapReduce算法 313

11.4.4 Toivonen算法 314

11.5 流中的频繁项 315

11.5.1 抽样法 315

11.5.2 衰减窗口的频繁项集 316

11.5.3 混合方法 316

11.6 推荐模型系统 317

11.6.1 效用矩阵 317

11.6.2 长尾现象 317

11.6.3 效用矩阵的填充 318

11.7 内容的推荐 318

11.7.1 项模型 319

11.7.2 项模型的表示 319

11.7.3 分类算法 320

11.8 协同过滤 321

11.8.1 协同过滤的优缺点 321

11.8.2 协同过滤案例 321

11.9 降维处理 322

11.9.1 基于中心流形理论的降维方法 322

11.9.2 Lyapunov-Schmidt(L-S)方法 323

11.9.3 Galerkin方法 324

11.9.4 正交分解技术的降维方法 327

11.9.5 其他降维方法 328

11.1 0Netflix大奖赛与推荐系统 331

参考文献 336

相关图书
作者其它书籍
返回顶部