第1章 认识大数据 1
1.1 大数据综述 1
1.1.1 大数据的产生 1
1.1.2 大数据的特征 2
1.2 大数据的基本概念 5
1.2.1 大数据的定义 5
1.2.2 大数据的特点 5
1.3 大数据思维 7
1.3.1 大数据思维的变革 7
1.3.2 大数据思维的关注点 9
1.4 大数据的处理过程 10
1.4.1 大数据采集 10
1.4.2 大数据导入与预处理 10
1.4.3 大数据统计与分析 11
1.4.4 大数据挖掘 11
1.5 大数据分析工具 12
1.5.1 InfoSphere BigInsights简介 12
1.5.2 BigQuery简介 13
1.5.3 “魔镜”简介 13
1.6 大数据的应用 14
1.6.1 大数据助石油公司智能营销、精准管理 14
1.6.2 大数据助乳业公司预测产奶量 15
实验1 认识大数据分析工具“魔镜” 16
第2章 大数据技术基础 24
2.1 基础架构支持 24
2.1.1 Hadoop 24
2.1.2 HBase 26
2.1.3 MapReduce 26
2.1.4 Hive 27
2.1.5 Pig 27
2.1.6 R语言 28
2.2 云计算 28
2.2.1 云计算的特点 29
2.2.2 云计算与大数据 30
2.3 数据采集 30
2.3.1 数据采集的意义 30
2.3.2 数据采集的方法 31
2.4 数据存储 32
2.4.1 数据存储的概念 32
2.4.2 数据的存储方式 32
2.4.3 常见数据源类型 33
实验2 数据源接入与编辑 36
第3章 大数据管理 45
3.1 大数据的清洗 45
3.1.1 数据质量 46
3.1.2 数据清洗的作用 48
3.1.3 数据清洗的方法和过程 49
3.1.4 数据清洗的实例 50
3.2 数据类型和数据转换 51
3.2.1 数据类型 52
3.2.2 数据转换 55
3.3 大数据的提取和加载 56
实验3 数据处理 58
第4章 大数据统计分析技术 69
4.1 统计分析概述 69
4.1.1 统计分析的概念 69
4.1.2 统计分析的特点 71
4.1.3 统计分析的应用 73
4.2 统计分析的常见指标 75
4.2.1 统计指标概述 75
4.2.2 总量指标 77
4.2.3 相对指标 80
4.2.4 平均指标 83
4.2.5 变异指标 88
4.3 回归与预测 90
4.3.1 回归 90
4.3.2 预测 92
实验4 数据分析 93
第5章 数据挖掘 100
5.1 大数据挖掘概念 100
5.1.1 数据挖掘的起源 100
5.1.2 数据挖掘的定义 102
5.2 数据挖掘任务 102
5.2.1 数据总结 102
5.2.2 分类 102
5.2.3 关联分析 103
5.2.4 聚类 103
5.3 数据挖掘流程 103
5.3.1 业务理解 104
5.3.2 数据理解 104
5.3.3 数据准备 105
5.3.4 建立模型 105
5.3.5 结果评价 106
5.4 数据挖掘的常用方法 106
5.4.1 决策树 106
5.4.2 遗传算法 109
5.4.3 神经网络 111
5.4.4 关联规则 112
5.4.5 粗糙集 113
5.4.6 判别分析 114
实验5 数据挖掘 116
第6章 大数据可视化 122
6.1 数据可视化分类 122
6.1.1 结构可视化 122
6.1.2 功能可视化 123
6.1.3 关联关系可视化 123
6.1.4 趋势可视化 124
6.2 可视化表现形式 125
6.2.1 二维可视化形式 125
6.2.2 三维可视化形式 126
6.2.3 仪表盘 128
6.2.4 定制可视化形式 129
6.2.5 大数据可视化方式的选择 130
实验6 数据可视化 132
第7章 大数据安全 158
7.1 大数据安全的内容 158
7.1.1 物理安全 159
7.1.2 网络安全 160
7.1.3 应用安全 160
7.1.4 数据隐私 162
7.2 数据保护技术 163
7.2.1 镜像技术 163
7.2.2 快照技术 164
7.2.3 持续数据保护技术 165
7.2.4 用户管理技术 166
实验7 权限管理机制 170
第8章 大数据应用案例实操 174
8.1 学生成绩分析 174
8.1.1 背景分析 174
8.1.2 需求分析 175
8.1.3 大数据分析过程 175
8.1.4 分析结论 184
8.2 电商行业销售分析 184
8.2.1 背景分析 184
8.2.2 需求分析 184
8.2.3 大数据分析过程 185
8.2.4 分析结论 195
参考文献 196