《大数据技术及行业应用》PDF下载

  • 购买积分:10 如何计算积分?
  • 作  者:许云峰等著
  • 出 版 社:北京:北京邮电大学出版社
  • 出版年份:2016
  • ISBN:9787563549184
  • 页数:248 页
图书介绍:该书从工程和学术一线的应用者角度深入阐述大数据的概念、大数据思维、大数据平台搭建、大数据挖掘工具和算法以及大数据在电子商务、环境科学、生物科学、社交网络中的具体应用案例。从应用者的角度重新定义大数据,为大数据技术的初学者和跨专业的应用者提供认识和应用大数据的新思路及不拘一格的解决方案。在大数据应用场景中,传统的程序设计架构、数据结构和数据挖掘工具已经体现出局限性。用人市场需要大量的能适应大数据应用场景的人才。大数据应用场景下的程序设计架构、数据结构和数据挖掘与传统场景下的不同,核心差异是能否支持4V.本书介绍了大数据程序设计架构包括MapReduce、Spark Streaming等、常用的适合大数据应用场景的数据结构和开发包以及大数据挖掘工具包括Mahout、R语言、GraphX等,并列举了相应的应用案例。该书用8章的篇幅通过不同专业的具体应用案例介绍了用大数据思维解决不同专业中具体问题的思路和解决方案。

第1章 大数据相关概念 1

1.1 什么是大数据? 1

1.2 大数据有多大? 3

1.3 大数据是一种思维方式 3

1.4 大数据思维的应用案例 4

1.5 大数据是如何产生的? 6

1.6 美国和中国的大数据产业生态系统 6

1.7 如何学习大数据技术 7

本章小结 8

参考文献 8

第2章 搭建私有大数据处理平台 10

2.1 FreeBSD操作系统安装 10

2.2 基础软件安装 11

2.2.1 安装Java运行环境 11

2.2.2 安装bash 11

2.3 Hadoop安装配置 11

2.3.1 系统规划 11

2.3.2 配置conf/masters、conf/slaves文件 12

2.3.3 Hadoop安装 12

2.4 Hadoop开发环境配置 16

2.4.1 编译Hadoop-eclipse-plugin-1.1.2.jar插件 16

2.4.2 eclipse配置 17

2.4.3 测试 17

2.5 Hadoop升级 18

2.6 Zookeeper安装 19

2.6.1 在FreeBSD上安装Zookeeper 19

2.6.2 启动并测试Zookeeper 20

2.7 HBase安装配置 21

2.8 FreeBSD上网配置 26

2.8.1 VPN上网配置 26

2.8.2 网页认证上网配置 27

2.9 配置杀毒软件 28

本章小结 29

第3章 大数据平台虚拟化解决方案 30

3.1 Ubuntu上安装Docker 30

3.1.1 Docker简介 30

3.1.2 Docker安装 31

3.1.3 Docker镜像相关命令 31

3.1.4 Docker容器相关命令 32

3.1.5 Dockerfile创建镜像 34

3.1.6 Docker实现Spark集群 36

3.1.7 Docker集中化Web界面管理平台shipyard 41

3.1.8 DockerUI 43

3.2 OpenStack搭建 45

3.2.1 下载工具和镜像 45

3.2.2 配置网桥 46

3.2.3 安装fuel 47

3.2.4 安装OpenStack平台 49

3.2.5 使用OpenStack平台 54

本章小结 61

参考文献 61

第4章 大数据平台解决方案 62

4.1 大数据平台比较 62

4.2 CDH大数据平台搭建 63

4.2.1 Cloudera Manager安装 63

4.2.2 添加服务 64

4.3 HDP大数据平台搭建 74

4.3.1 部署Ambari 75

4.3.2 用Ambari_web部署HDP平台 78

本章小结 86

第5章 Spark在大数据处理中的应用 87

5.1 Spark集群搭建 87

5.1.1 Scala在Ubuntu下的安装和配置 87

5.1.2 Spark集群搭建 88

5.1.3 Spark集群启动测试 89

5.2 Spark-shell统计社交网络中节点的度 90

5.2.1 启动HDFS和Spark 90

5.2.2 运行Spark-shell 91

5.2.3 统计社交网络中节点的度 92

5.3 Spark GraphX 94

5.3.1 属性图 95

5.3.2 图操作 98

5.3.3 构建图 108

5.3.4 图计算相关算法 109

5.3.5 GraphX图计算实例 112

本章小结 113

参考文献 113

第6章 大数据技术在环境科学中的应用 115

6.1 大气环境科学的数值模式的介绍 115

6.1.1 气象模式 115

6.1.2 区域空气质量模式 119

6.2 高分辨率实时观测的大数据 127

本章小结 128

参考文献 128

第7章 大数据在DrugBank药物数据库聚类方面的应用 130

7.1 简介 130

7.2 开发环境及编程语言 133

7.3 算法设计 134

7.3.1 算法设计流程 134

7.3.2 相似度的计算 135

7.4 算法实现 138

7.4.1 文件的解析 138

7.4.2 对靶标、作用酶的分析 138

7.4.3 对分子中原子百分比的处理过程 140

7.4.4 结果的整合 145

7.4.5 最终结果展示 146

本章小结 147

参考文献 148

第8章 大数据在电子商务数据分析中的应用 150

8.1 研究现状 150

8.2 相关技术及概念 151

8.2.1 网络爬虫 151

8.2.2 HtmlUnit工具包 152

8.2.3 Mahout 152

8.2.4 朴素贝叶斯算法 152

8.2.5 文档向量 153

8.2.6 TF-IDF改进加权 153

8.2.7 中文分词 154

8.3 需求分析 154

8.3.1 系统功能 154

8.3.2 系统界面 156

8.4 概要设计 157

8.4.1 系统模块设计 157

8.4.2 数据库设计 158

8.5 详细设计 162

8.5.1 用户登录模块 162

8.5.2 爬虫管理模块 163

8.5.3 算法管理模块 165

8.5.4 用户管理模块 166

8.6 系统测试 167

8.6.1 训练集准备 167

8.6.2 新数据准备 168

8.6.3 训练模型 170

8.6.4 数据分类 171

8.6.5 分类结果分析 171

本章小结 173

参考文献 173

第9章 大数据技术在社交网络研究中的应用 174

9.1 社区发现研究简介 174

9.2 社区发现相关研究工作 175

9.2.1 相关工作 176

9.2.2 研究动机 177

9.3 模型与问题的形式化 177

9.3.1 社区森林模型 177

9.3.2 问题形式化 179

9.4 骨干度算法 180

9.4.1 骨干度算法框架 181

9.4.2 算法的时间复杂度 183

9.4.3 算法比较 183

9.5 实验分析 183

9.5.1 数据集 183

9.5.2 一个特定人际关系网络的测试 186

9.5.3 Zachary的空手道俱乐部测试 187

9.5.4 美国大学橄榄球队 189

9.5.5 安然电子邮件公司数据集 189

9.5.6 DBLP合作网络 191

9.5.7 结论 192

本章小结 192

参考文献 193

第10章 大数据技术在文本挖掘和情感分类中的应用 195

10.1 研究综述 195

10.1.1 基于产品特征的观点挖掘研究 195

10.1.2 产品评论结构化信息抽取方法 198

10.1.3 评论信息分类相关研究方法 200

10.2 评论文本的结构化信息抽取 202

10.2.1 产品特征抽取 202

10.2.2 基于关联规则抽取评论的隐式特征 203

10.2.3 基于监督学习抽取评论的隐式特征 207

10.3 情感分类研究综述 209

10.3.1 基于词典与语言规则进行情感分类 209

10.3.2 观点挖掘结果归纳 213

10.4 算法评估结果与分析 215

10.4.1 隐式特征抽取实验结果及分析 215

10.4.2 篇章粒度情感分类实验结果及分析 221

10.4.3 语句粒度情感分类实验结果及分析 222

本章小结 224

参考文献 224

第11章 大数据技术在电力系统中的应用 228

11.1 一种云可视化机网协调控制响应特性数据挖掘方法 228

11.1.1 技术领域 229

11.1.2 背景技术 229

11.1.3 方案内容 229

11.2 基于电力数据分析的河北南网电力市场化风险对冲方法 231

11.2.1 电网对发电侧市场化风险对冲分析 232

11.2.2 电网对用电侧市场化风险对冲分析 233

11.2.3 基于方差偏离规律的统计套利对冲方法 236

本章小结 237

附录 FreeBSD操作系统安装 238