Hadoop与大数据挖掘PDF电子书下载
- 电子书积分:12 积分如何计算积分?
- 作 者:张良均,樊哲,位文超,刘名军等著
- 出 版 社:北京:机械工业出版社
- 出版年份:2017
- ISBN:9787111567875
- 页数:322 页
第一篇 基础篇 2
第1章 浅谈大数据 2
1.1大数据概述 3
1.2大数据平台 4
1.3本章小结 5
第2章 大数据存储与运算利器——Hadoop 6
2.1 Hadoop概述 6
2.1.1 Hadoop简介 6
2.1.2 Hadoop存储——HDFS 8
2.1.3 Hadoop计算——MapReduce 11
2.1.4 Hadoop资源管理——YARN 13
2.1.5 Hadoop生态系统 14
2.2 Hadoop配置及IDE配置 17
2.2.1准备工作 17
2.2.2环境配置 18
2.2.3集群启动关闭与监控 24
2.2.4动手实践:一键式Hadoop集群启动关闭 25
2.2.5动手实践:Hadoop IDE配置 26
2.3 Hadoop集群命令 28
2.3.1 HDFS常用命令hdfs dfs 30
2.3.2动手实践:hdfs dfs命令实战 31
2.3.3 MapReduce常用命令mapred job 32
2.3.4 YARN常用命令yam jar 32
2.3.5动手实践:运行MapReduce任务 33
2.4 Hadoop编程开发 33
2.4.1 HDFS Java API操作 33
2.4.2 MapReduce原理 35
2.4.3动手实践:编写Word Count程序并打包运行 44
2.4.4 MapReduce组件分析与编程实践 46
2.5 K-Means算法原理及HadoopMapReduce实现 53
2.5.1 K-Means算法原理 53
2.5.2动手实践:K-Means算法实现 55
2.5.3 Hadoop K-Means算法实现思路 55
2.5.4 Hadoop K-Means编程实现 57
2.6 TF-IDF算法原理及Hadoop MapReduce实现 67
2.6.1 TF-IDF算法原理 67
2.6.2 Hadoop TF-IDF编程思路 67
2.6.3 Hadoop TF-IDF编程实现 68
2.7本章小结 79
第3章 大数据查询——Hive 81
3.1 Hive概述 81
3.1.1 Hive体系架构 82
3.1.2 Hive数据类型 86
3.1.3 Hive安装 87
3.1.4动手实践:Hive安装配置 91
3.1.5动手实践:HiveQL基础—— SQL 91
3.2 HiveQL语句 93
3.2.1数据库操作 94
3.2.2 Hive表定义 94
3.2.3数据导入 100
3.2.4数据导出 103
3.2.5 HiveQL查询 104
3.3动手实践:基于Hive的学生信息查询 108
3.4基于Hive的航空公司客户价值数据预处理及分析 109
3.4.1背景与挖掘目标 109
3.4.2分析方法与过程 111
3.5本章小结 115
第4章 大数据快速读写——HBase 116
4.1 HBase概述 116
4.2配置HBase集群 118
4.2.1 Zookeeper简介及配置 118
4.2.2配置HBase 121
4.2.3动手实践:HBase安装及运行 122
4.2.4动手实践:ZooKeeper获取HBase状态 122
4.3 HBase原理与架构组件 123
4.3.1 HBase架构与组件 123
4.3.2 HBase数据模型 127
4.3.3读取/写入HBase数据 128
4.3.4 RowKey设计原则 129
4.3.5动手实践:HBase数据模型验证 131
4.4 HBase Shell操作 132
4.4.1 HBase常用Shell命令 132
4.4.2动手实践:HBase Shell操作 136
4.5 Java API &MapReduce与HBase交互 137
4.5.1搭建HBase开发环境 137
4.5.2使用Java API操作HBase表 144
4.5.3动手实践:HBase Java API使用 147
4.5.4 MapReduce与HBase交互 147
4.5.5动手实践:HBase表导入导出 150
4.6基于HBase的冠字号查询系统 151
4.6.1案例背景 151
4.6.2功能指标 151
4.6.3系统设计 152
4.6.4动手实践:构建基于HBase的冠字号查询系统 162
4.7本章小结 175
第5章 大数据处理——Pig 176
5.1 Pig概述 176
5.1.1 Pig Latin简介 177
5.1.2 Pig数据类型 179
5.1.3 Pig与Hive比较 179
5.2配置运行Pig 180
5.2.1 Pig配置 181
5.2.2 Pig运行模式 181
5.3常用Pig Latin操作 182
5.3.1数据加载 182
5.3.2数据存储 184
5.3.3 Pig参数替换 185
5.3.4数据转换 186
5.4综合实践 194
5.4.1动手实践:访问统计信息数据处理 194
5.4.2动手实践:股票交易数据处理 195
5.5本章小结 196
第6章 大数据快速运算与挖掘——Spark 197
6.1 Spark概述 197
6.2 Spark安装集群 199
6.2.1 3种运行模式 199
6.2.2动手实践:配置Spark独立集群 199
6.2.3 3种运行模式实例 201
6.2.4动手实践:Spark Streaming实时日志统计 205
6.2.5动手实践:Spark开发环境——Intellij IDEA配置 207
6.3 Spark架构与核心原理 212
6.3.1 Spark架构 212
6.3.2 RDD原理 213
6.3.3深入理解Spark核心原理 215
6.4 Spark编程技巧 218
6.4.1 Scala基础 218
6.4.2 Spark基础编程 218
6.5如何学习Spark MLlib 225
6.5.1确定应用 227
6.5.2 ALS算法直观描述 228
6.5.3编程实现 229
6.5.4问题解决及模型调优 233
6.6动手实践:基于Spark ALS电影推荐系统 234
6.6.1动手实践:生成算法包 235
6.6.2动手实践:完善推荐系统 239
6.7本章小结 250
第7章 大数据工作流——Oozie 252
7.1 Oozie简介 252
7.2编译配置并运行Oozie 253
7.2.1动手实践:编译Oozie 253
7.2.2动手实践:Oozie Server/client配置 254
7.3 Oozie WorkFlow实践 257
7.3.1定义及提交工作流 257
7.3.2动手实践:MapReduce Work-Flow定义及调度 260
7.3.3动手实践:Pig WorkFlow定义及调度 263
7.3.4动手实践:Hive WorkFlow定义及调度 265
7.3.5动手实践:Spark WorkFlow定义及调度 267
7.3.6动手实践:Spark On Yarn定义及调度 268
7.4 Oozie Coordinator实践 270
7.4.1动手实践:基于时间调度 270
7.4.2动手实践:基于数据有效性调度 273
7.5本章小结 275
第二篇 挖掘实战篇 278
第8章 法律服务大数据智能推荐 278
8.1背景 278
8.2目标 279
8.3系统架构及流程 279
8.4分析过程及实现 281
8.4.1数据传输 281
8.4.2数据传输:动手实践 282
8.4.3数据探索分析 283
8.4.4数据预处理 292
8.4.5模型构建 297
8.5构建法律服务大数据智能推荐系统 313
8.5.1动手实践:构建推荐系统JavaEE 313
8.5.2动手实践:Oozie工作流任务 317
8.6本章小结 322
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《Access数据库系统设计与应用教程》李勇帆,廖瑞华主编 2019
- 《并行数据挖掘及性能优化》荀亚玲著 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《高等教育双机械基础课程系列教材 高等学校教材 机械设计课程设计手册 第5版》吴宗泽,罗圣国,高志,李威 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017
- 《新工业时代 世界级工业家张毓强和他的“新石头记”》秦朔 2019
- 《智能制造高技能人才培养规划丛书 ABB工业机器人虚拟仿真教程》(中国)工控帮教研组 2019
- 《AutoCAD机械设计实例精解 2019中文版》北京兆迪科技有限公司编著 2019