基于Hadoop的大数据分析和处理PDF电子书下载
- 电子书积分:11 积分如何计算积分?
- 作 者:魏祖宽,刘兆宏编著
- 出 版 社:北京:电子工业出版社
- 出版年份:2017
- ISBN:9787121317392
- 页数:260 页
第1章 Hadoop的介绍和集群构建 1
1.1 Hadoop介绍 1
1.1.1云计算和Hadoop 1
1.1.2 Hadoop的历史 3
1.2 Hadoop构建案例 5
1.2.1欧美构建案例 6
1.2.2韩国构建案例 6
1.3构建Hadoop集群 7
1.3.1分布式文件系统 8
1.3.2构建Hadoop集群的准备事项 11
1.3.3构建伪分布式 17
1.3.4分布式集群(Cluster)构建 28
1.4 Hadoop分布式文件系统指令 35
1.5小结 39
第2章 Hadoop分布式处理文件系统 40
2.1 Hadoop分布式文件系统的设计 40
2.2概观Hadoop分布式文件系统的整体构造 42
2.3 Namenode的角色 42
2.3.1元数据管理 43
2.3.2元数据的安全保管——Edits和Fslmage文件及Secondary Namenode 47
2.3.3 Datanode管理 50
2.4 Datanode的角色 57
2.4.1 block管理 57
2.4.2数据的复制和过程 60
2.4.3 Datanode添加 61
2.5小结 63
第3章 大数据和MapReduce 65
3.1大数据的概要 65
3.1.1大数据的概念 66
3.1.2大数据的价值创造 67
3.2 MapReduce 68
3.2.1 MapReduce示例:词频统计(Word Count) 69
3.2.2 MapReduce开源代码:词频统计(Word Count)——Java基础 72
3.2.3 MapReduce开源代码:词频统计(Word Count)——Ruby语言基础 74
3.3 MapReduce的结构 76
3.3.1通过案例了解MapReduce结构 76
3.3.2从结构性角度进行的MapReduce最优化方案 79
3.4 MapReduce的容错性 82
3.5 MapReduce的编程 83
3.5.1搜索 83
3.5.2排序 84
3.5.3倒排索引 85
3.5.4查找热门词 86
3.5.5合算数字 86
3.6构建Hadoop:通过MapReduce的案例介绍 87
3.6.1单词频率统计MapReduce的编程 88
3.6.2 MapReduce——用户界面 92
3.7小结 97
第4章 Hadoop版本特征及进化 98
4.1 Hadoop 0.1 x版本的API 99
4.2 Hadoop附加功能 103
4.3 Hadoop安全相关功能 105
4.4 Hadoop 2.0.0 alpha 108
4.4.1安装Hadoop 2.0.0 108
4.4.2 Hadoop分布式文件系统的更改 117
4.4.3跨时代MapReduce框架:YARN 124
4.5小结 131
第5章 云计算和Hadoop 133
5.1大规模Hadoop集群的构建和案例 133
5.2云基础设施服务的登场 135
5.2.1 Amazon云服务 136
5.3在Amazon EC2中构建Hadoop集群 151
5.3.1 Apache Whirr 151
5.3.2构建Hadoop集群 152
5.4小结 155
第6章 Amazon Elastic MapReduce的倍增利用 156
6.1 Amazon EMR的活用 156
6.1.1 Amazon EMR的概念 156
6.1.2 Amazon EMR的构造 157
6.1.3 Amazon EMR的特征 158
6.1.4 Amazon EMR的Job Flow和Step 159
6.1.5使用Amazon EMR前需要了解的事项 159
6.1.6 Amazon EMR的实战运用 165
6.2小结 172
第7章 Hadoop应用下的大数据分析 173
7.1 Hadoop应用下的机器学习(Mahout) 173
7.1.1设置及编译 174
7.1.2 K-means聚类算法 176
7.1.3基于矢量相似度的协同过滤 181
7.1.4小结 187
7.2基于Hadoop的统计分析Rhive(R and Hive) 188
7.2.1 R的设置及灵活运用 188
7.2.2 Hive的设置及灵活运用 191
7.2.3 RHive的设置及灵活运用 194
7.2.4小结 200
7.3利用Hadoop的图形数据处理Giraph 200
7.4小结 209
第8章 数据中的DBMS,NoSQL 210
8.1 NoSQL出现背景:大数据和Web 2.0 211
8.1.1基于Web 2.0的大数据的登场 211
8.1.2基于大数据的NoSQL的登场 213
8.1.3适合大数据和Web 2.0的数据库NoSQL 214
8.2 NoSQL的定义和类别特征 218
8.3 NoSQL数据模型概要和分类 221
8.4 NoSQL数据模型化 223
8.4.1 NoSQL数据模型化基本概念 224
8.4.2一般的NoSQL建模方法 226
8.5主要 NoSQL的比较和选择 230
8.6小结 233
第9章 HBase:Hadoop中的NoSQL 234
9.1 Hadoop生态界中的HBase 234
9.2 HBase介绍 239
9.3 HBase数据模型 240
9.3.1 map 240
9.3.2持续性 240
9.3.3分布性 240
9.3.4排序性 241
9.3.5多维性 242
9.3.6稀疏性 244
9.4 HBase的数据库模式 245
9.5 HBase构造 249
9.6 HBase的构建及运行 251
9.7 HBase的扩展——DuoBase中的HBase 254
9.8 HBase的用户定义索引 256
9.8.1 HBase用户定义索引——HFile格式的扩展 257
9.8.2 HBase用户定义索引——Region的扩展 257
9.9小结 260
- 《水面舰艇编队作战运筹分析》谭安胜著 2009
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《分析化学》陈怀侠主编 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《影响葡萄和葡萄酒中酚类特征的因素分析》朱磊 2019
- 《仪器分析技术 第2版》曹国庆 2018
- 《全国普通高等中医药院校药学类专业十三五规划教材 第二轮规划教材 分析化学实验 第2版》池玉梅 2018
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《流体力学》张扬军,彭杰,诸葛伟林编著 2019
- 《电子测量与仪器》人力资源和社会保障部教材办公室组织编写 2009
- 《少儿电子琴入门教程 双色图解版》灌木文化 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《通信电子电路原理及仿真设计》叶建芳 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《电子应用技术项目教程 第3版》王彰云 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017