第1章 大数据相关概念 1
1.1 什么是大数据? 1
1.2 大数据有多大? 3
1.3 大数据是一种思维方式 3
1.4 大数据思维的应用案例 4
1.5 大数据是如何产生的? 6
1.6 美国和中国的大数据产业生态系统 6
1.7 如何学习大数据技术 7
本章小结 8
参考文献 8
第2章 搭建私有大数据处理平台 10
2.1 FreeBSD操作系统安装 10
2.2 基础软件安装 11
2.2.1 安装Java运行环境 11
2.2.2 安装bash 11
2.3 Hadoop安装配置 11
2.3.1 系统规划 11
2.3.2 配置conf/masters、conf/slaves文件 12
2.3.3 Hadoop安装 12
2.4 Hadoop开发环境配置 16
2.4.1 编译Hadoop-eclipse-plugin-1.1.2.jar插件 16
2.4.2 eclipse配置 17
2.4.3 测试 17
2.5 Hadoop升级 18
2.6 Zookeeper安装 19
2.6.1 在FreeBSD上安装Zookeeper 19
2.6.2 启动并测试Zookeeper 20
2.7 HBase安装配置 21
2.8 FreeBSD上网配置 26
2.8.1 VPN上网配置 26
2.8.2 网页认证上网配置 27
2.9 配置杀毒软件 28
本章小结 29
第3章 大数据平台虚拟化解决方案 30
3.1 Ubuntu上安装Docker 30
3.1.1 Docker简介 30
3.1.2 Docker安装 31
3.1.3 Docker镜像相关命令 31
3.1.4 Docker容器相关命令 32
3.1.5 Dockerfile创建镜像 34
3.1.6 Docker实现Spark集群 36
3.1.7 Docker集中化Web界面管理平台shipyard 41
3.1.8 DockerUI 43
3.2 OpenStack搭建 45
3.2.1 下载工具和镜像 45
3.2.2 配置网桥 46
3.2.3 安装fuel 47
3.2.4 安装OpenStack平台 49
3.2.5 使用OpenStack平台 54
本章小结 61
参考文献 61
第4章 大数据平台解决方案 62
4.1 大数据平台比较 62
4.2 CDH大数据平台搭建 63
4.2.1 Cloudera Manager安装 63
4.2.2 添加服务 64
4.3 HDP大数据平台搭建 74
4.3.1 部署Ambari 75
4.3.2 用Ambari_web部署HDP平台 78
本章小结 86
第5章 Spark在大数据处理中的应用 87
5.1 Spark集群搭建 87
5.1.1 Scala在Ubuntu下的安装和配置 87
5.1.2 Spark集群搭建 88
5.1.3 Spark集群启动测试 89
5.2 Spark-shell统计社交网络中节点的度 90
5.2.1 启动HDFS和Spark 90
5.2.2 运行Spark-shell 91
5.2.3 统计社交网络中节点的度 92
5.3 Spark GraphX 94
5.3.1 属性图 95
5.3.2 图操作 98
5.3.3 构建图 108
5.3.4 图计算相关算法 109
5.3.5 GraphX图计算实例 112
本章小结 113
参考文献 113
第6章 大数据技术在环境科学中的应用 115
6.1 大气环境科学的数值模式的介绍 115
6.1.1 气象模式 115
6.1.2 区域空气质量模式 119
6.2 高分辨率实时观测的大数据 127
本章小结 128
参考文献 128
第7章 大数据在DrugBank药物数据库聚类方面的应用 130
7.1 简介 130
7.2 开发环境及编程语言 133
7.3 算法设计 134
7.3.1 算法设计流程 134
7.3.2 相似度的计算 135
7.4 算法实现 138
7.4.1 文件的解析 138
7.4.2 对靶标、作用酶的分析 138
7.4.3 对分子中原子百分比的处理过程 140
7.4.4 结果的整合 145
7.4.5 最终结果展示 146
本章小结 147
参考文献 148
第8章 大数据在电子商务数据分析中的应用 150
8.1 研究现状 150
8.2 相关技术及概念 151
8.2.1 网络爬虫 151
8.2.2 HtmlUnit工具包 152
8.2.3 Mahout 152
8.2.4 朴素贝叶斯算法 152
8.2.5 文档向量 153
8.2.6 TF-IDF改进加权 153
8.2.7 中文分词 154
8.3 需求分析 154
8.3.1 系统功能 154
8.3.2 系统界面 156
8.4 概要设计 157
8.4.1 系统模块设计 157
8.4.2 数据库设计 158
8.5 详细设计 162
8.5.1 用户登录模块 162
8.5.2 爬虫管理模块 163
8.5.3 算法管理模块 165
8.5.4 用户管理模块 166
8.6 系统测试 167
8.6.1 训练集准备 167
8.6.2 新数据准备 168
8.6.3 训练模型 170
8.6.4 数据分类 171
8.6.5 分类结果分析 171
本章小结 173
参考文献 173
第9章 大数据技术在社交网络研究中的应用 174
9.1 社区发现研究简介 174
9.2 社区发现相关研究工作 175
9.2.1 相关工作 176
9.2.2 研究动机 177
9.3 模型与问题的形式化 177
9.3.1 社区森林模型 177
9.3.2 问题形式化 179
9.4 骨干度算法 180
9.4.1 骨干度算法框架 181
9.4.2 算法的时间复杂度 183
9.4.3 算法比较 183
9.5 实验分析 183
9.5.1 数据集 183
9.5.2 一个特定人际关系网络的测试 186
9.5.3 Zachary的空手道俱乐部测试 187
9.5.4 美国大学橄榄球队 189
9.5.5 安然电子邮件公司数据集 189
9.5.6 DBLP合作网络 191
9.5.7 结论 192
本章小结 192
参考文献 193
第10章 大数据技术在文本挖掘和情感分类中的应用 195
10.1 研究综述 195
10.1.1 基于产品特征的观点挖掘研究 195
10.1.2 产品评论结构化信息抽取方法 198
10.1.3 评论信息分类相关研究方法 200
10.2 评论文本的结构化信息抽取 202
10.2.1 产品特征抽取 202
10.2.2 基于关联规则抽取评论的隐式特征 203
10.2.3 基于监督学习抽取评论的隐式特征 207
10.3 情感分类研究综述 209
10.3.1 基于词典与语言规则进行情感分类 209
10.3.2 观点挖掘结果归纳 213
10.4 算法评估结果与分析 215
10.4.1 隐式特征抽取实验结果及分析 215
10.4.2 篇章粒度情感分类实验结果及分析 221
10.4.3 语句粒度情感分类实验结果及分析 222
本章小结 224
参考文献 224
第11章 大数据技术在电力系统中的应用 228
11.1 一种云可视化机网协调控制响应特性数据挖掘方法 228
11.1.1 技术领域 229
11.1.2 背景技术 229
11.1.3 方案内容 229
11.2 基于电力数据分析的河北南网电力市场化风险对冲方法 231
11.2.1 电网对发电侧市场化风险对冲分析 232
11.2.2 电网对用电侧市场化风险对冲分析 233
11.2.3 基于方差偏离规律的统计套利对冲方法 236
本章小结 237
附录 FreeBSD操作系统安装 238