第1章 大数据概述 1
1.1大数据的背景 1
1.2大数据的基本概念 3
1.3大数据的来源及分类 6
1.4大数据分析的价值 8
1.5案例:上海联通大数据应用实践 13
【本章小结】 16
【关键术语】 16
【复习思考题】 16
第2章 大数据生态系统 17
2.1 Hadoop生态系统 17
2.2 Spark生态系统 26
2.3 Hadoop和Spark的应用案例 33
【本章小结】 35
【关键术语】 35
【复习思考题】 35
第3章 大数据收集 36
3.1 Flume 36
3.2 Kafka 47
3.3 Kafka和Flume的区别 52
【本章小结】 53
【关键术语】 53
【复习思考题】 53
第4章 大数据计算 54
4.1 MapReduce 54
4.2 Impala 61
4.3 Storm 68
【本章小结】 75
【关键术语】 75
【复习思考题】 75
第5章 大数据挖掘 76
5.1机器学习 76
5.2 Mahout 91
5.3 Weka 100
5.4 R语言 110
【本章小结】 124
【关键术语】 125
【复习思考题】 125
第6章 大数据可视化 126
6.1 Tableau 126
6.2 ECharts 137
6.3大数据可视化应用实例 148
【本章小结】 150
【关键术语】 150
【复习思考题】 150
第7章 大规模搜索日志用户行为分析 151
7.1 Linux环境下进行数据预处理 151
7.2基于Hive构建日志数据的数据仓库 154
7.3搜索日志数据分析 157
【本章小结】 165
【关键术语】 165
【复习思考题】 165
第8章 电子商务大数据推荐系统 166
8.1电子商务推荐系统 166
8.2数据预处理 168
8.3 Mahout基于项目的推荐方法 173
【本章小结】 177
【关键术语】 177
【复习思考题】 177
附录 178
附录1 Flume中组件的度量 178
附录2 Linux系统下配置实验环境 185
附录3安装部署Hive 201
附录4 Mahout实验环境配置及数据准备 205
附录5大数据分析学习资源 206
参考文献 211