Hadoop应用实战PDF电子书下载
- 电子书积分:11 积分如何计算积分?
- 作 者:谭磊,范磊编著
- 出 版 社:北京:清华大学出版社
- 出版年份:2017
- ISBN:9787302459279
- 页数:279 页
第1章 大数据概念的老调重弹 1
1.1 互联网和物联网上的数据 2
1.1.1 互联网上越来越多的数据被存储 2
1.1.2 物联网带来更多的数据 4
1.2 数据能为我们做的事 5
1.2.1 用户画像和任何企业都需要关注的数据 6
1.2.2 大数据的3V、4V和N个V 7
1.2.3 从数据分析到数据挖掘 8
1.2.4 大数据处理的三个维度 9
1.3 数据挖掘中的一些基本概念 11
1.3.1 分类算法 11
1.3.2 聚类算法 12
1.3.3 关联算法 13
1.3.4 序列算法 14
1.3.5 估测和预测 14
1.3.6 A/B Test 15
1.4 数据仓库 16
1.4.1 数据仓库是解决大数据存储的基础设施 17
1.4.2 4种不同类型的数据仓库 18
1.4.3 国内外数据仓库的不同使用方式 19
1.5 不包含在本书中的内容 21
1.6 这本书都讲些啥 22
第2章 Hadoop的前世今生 25
2.1 Google的计算框架 26
2.1.1 Google公司的三篇论文 26
2.1.2 GFS文件系统 27
2.1.3 MapReduce的模型和框架 28
2.1.4 BigTable数据库 29
2.2 Hadoop的诞生 30
2.2.1 从GFS到HDFS 30
2.2.2 Hadoop的基础计算框架MapReduce 31
2.2.3 从BigTable到HBase 33
2.3 Hadoop的今天 33
2.4 Hadoop大事记 35
第3章 等同于大数据的Hadoop 37
3.1 Hadoop理念 38
3.2 Hadoop核心基础架构 39
3.2.1 Namenode和Datanode 39
3.2.2 Hadoop底层的文件系统HDFS 40
3.2.3 Hadoop上的数据库HBase 42
3.3 Hadoop上的各种其他组件 44
3.3.1 资源分配系统YARN 44
3.3.2 灵活的编程语言pig 46
3.3.3 数据挖掘工具Mahout 48
3.3.4 专注于数据挖掘的R语言 48
3.3.5 数据仓库工具Hive 49
3.3.6 数据采集系统Flume 51
3.4 Spark和Hadoop 51
3.4.1 闪电侠出现了 51
3.4.2 大数据领域的Taylor Swift 52
3.4.3 Spark的架构 53
3.4.4 Spark和流处理 54
第4章 Hadoop的价值 57
4.1 大数据时代需要新的架构 58
4.1.1 企业IT面临的挑战 58
4.1.2 数据分析要考虑的问题 59
4.1.3 新的IT架构的需求 60
4.2 Hadoop能解决的问题 61
4.2.1 Hadoop适合做的事情 61
4.2.2 Hadoop对系统数据安全性的保障 62
4.2.3 数据流与数据流处理 62
4.3 去IOE 65
4.4 7种最常见的Hadoop和Spark项目 71
第5章 Hadoop系统速成 75
5.1 Hadoop系统搭建速成 76
5.1.1 Hadoop系统的三种运行模式 76
5.1.2 单点搭建Hadoop系统 76
5.1.3 全分布式(多节点)搭建Hadoop系统 80
5.1.4 在Hadoop上编程 83
5.1.5 Hadoop系统的典型配置 83
5.2 在云上运行Hadoop 85
5.2.1 在金山云上运行Hadoop 86
5.2.2 微软的HDInsight 89
5.3 Hadoop信息大全 90
第6章 数据仓库和Hadoop 93
6.1 大数据时代的数据系统设计 94
6.1.1 分布式系统上的CAP原理 94
6.1.2 ACID和BASE概念的区别 95
6.1.3 NoSQL 96
6.1.4 各种数据源的整合 100
6.2 传统数据仓库的瓶颈 101
6.2.1 传统数据仓库的瓶颈之一:数据量的问题 101
6.2.2 传统数据仓库的瓶颈之二:数据类型的问题 102
6.2.3 传统数据仓库的瓶颈之三:数据处理的延时问题 102
6.2.4 传统数据仓库的瓶颈之四:数据模型的变化问题 103
6.3 Hadoop是解决数据仓库瓶颈的方法 104
6.3.1 解决数据量的问题 104
6.3.2 解决数据类型的问题 105
6.3.3 数据处理的速度问题 106
6.3.4 数据模型的变化问题 107
6.4 基于Hadoop和Spark的数据仓库解决方案 108
6.4.1 基于Hadoop/Spark结构的数据仓库系统架构 108
6.4.2 分布式计算引擎 109
6.4.3 标准化的编程模型 110
6.4.4 数据操作方式的多样性 110
6.4.5 OLAP交互式统计分析能力 110
6.4.6 多类型数据的处理能力 111
6.4.7 实时计算与企业数据总线 111
6.4.8 数据探索与挖掘能力 111
6.4.9 安全性和权限管理 112
6.4.10 混合负载管理 112
第7章 在不同应用环境下的Hadoop 115
7.1 在存储密集型环境中的Hadoop 116
7.2 在网络密集型环境中的Hadoop 118
7.3 在运算密集型环境中的Hadoop 121
7.4 Hadoop平台的对比和选择 127
7.4.1 为什么会选择商用的Hadoop系统 127
7.4.2 商用Hadoop系统之间的选择 130
第8章 Hadoop在互联网公司的应用 133
8.1 Hadoop在腾讯 134
8.2 Hadoop在Facebook的应用 138
8.3 金山的Hadoop 140
8.4 迅雷公司对Hadoop的应用 144
第9章 Hadoop和行业应用之一 147
9.1 Hadoop和运营商 148
9.2 Hadoop和公用事业 163
9.3 Hadoop和“智慧工商” 175
9.4 Hadoop和政务云 183
第10章 Hadoop与“衣食住行”中的“食”和“行” 191
10.1 Hadoop和“食” 192
10.2 Hadoop和“行” 201
第11章 Hadoop和行业应用之三 209
11.1 Hadoop和金融 210
11.1.1 金融的大数据属性 210
11.1.2 金融企业的风险控制 211
11.2 Hadoop和医疗 221
11.3 Hadoop和物流 226
11.4 Hadoop和媒体 229
第12章 特殊场景下的Hadoop系统 237
12.1 Hadoop和实时系统 238
12.2 Hadoop平台的一些特殊场景实现 243
第13章 Hadoop系统的挑战和应对 247
13.1 Hadoop系统使用须知 248
13.2 Hadoop平台风险点预估 250
13.2.1 Namenode的单点故障和系统的可用性 250
13.2.2 集群硬件故障导致平台可靠性与可用性大幅降低 251
13.2.3 Hadoop集群大数据安全和隐私问题 252
13.3 Hadoop平台硬件故障的应对机制 252
13.3.1 监控软硬件故障的应对机制 253
13.3.2 断电处理 255
13.4 Hadoop平台如何真正做到高可用性 255
13.4.1 Hadoop系统的高可用性冗余性保障 256
13.4.2 Facebook的Namenode HA的方案 256
13.4.3 TDH的Namenode高可用性冗余解决方案 257
13.5 Hadoop平台安全性和隐私性的应对机制 259
13.5.1 关于安全和隐私问题的7个事项 259
13.5.2 星环的4A级统一安全管理解决方案 259
13.5.3 Hadoop系统安全Checklist 262
第14章 Hadoop的未来 263
14.1 Hadoop未来的发展趋势 264
14.1.1 对数据系统的不断升级 264
14.1.2 机器学习 264
14.2 Hadoop和区块链 265
附录A 专业词汇表 267
附录B 引用文献 271
附录C 参考网站一览 273
附录D HDFS命令行列表 275
附录E 本书引用案例索引 278
- 《钒产业技术及应用》高峰,彭清静,华骏主编 2019
- 《现代水泥技术发展与应用论文集》天津水泥工业设计研究院有限公司编 2019
- 《英汉翻译理论的多维阐释及应用剖析》常瑞娟著 2019
- 《Maya 2018完全实战技术手册》来阳编著 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《区块链DAPP开发入门、代码实现、场景应用》李万胜著 2019
- 《虚拟流域环境理论技术研究与应用》冶运涛蒋云钟梁犁丽曹引等编著 2019
- 《Python3从入门到实战》董洪伟 2019
- 《当代翻译美学的理论诠释与应用解读》宁建庚著 2019
- 《第一性原理方法及应用》李青坤著 2019
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《流体力学》张扬军,彭杰,诸葛伟林编著 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019