实验一 大数据实验一体机基础操作 1
1.1实验目的 1
1.2实验要求 1
1.3实验原理 1
1.4实验步骤 9
实验二 HDFS实验:部署HDFS 17
2.1实验目的 17
2.2实验要求 17
2.3实验原理 17
2.4实验步骤 19
实验三 HDFS实验:读写HDFS文件 21
3.1实验目的 21
3.2实验要求 21
3.3实验原理 21
3.4实验步骤 23
实验四 YARN实验:部署YARN集群 31
4.1实验目的 31
4.2实验要求 31
4.3实验原理 31
4.4实验步骤 33
4.5实验结果 35
实验五 MapReduce实验:单词计数 37
5.1实验目的 37
5.2实验要求 37
5.3实验原理 37
5.4实验步骤 39
5.5实验结果 41
实验六 MapReduce实验:二次排序 43
6.1实验目的 43
6.2实验要求 43
6.3实验原理 43
6.4实验步骤 43
6.5实验结果 48
实验七 MapReduce实验:计数器 49
7.1实验目的 49
7.2实验要求 49
7.3实验背景 49
7.4实验步骤 51
7.5实验结果 53
实验八 MapReduce实验:Join操作 55
8.1实验目的 55
8.2实验要求 55
8.3实验背景 55
8.4实验步骤 56
8.5实验结果 61
实验九 MapReduce实验:分布式缓存 63
9.1实验目的 63
9.2实验要求 63
9.3实验步骤 63
9.4实验结果 68
实验十 Hive实验:部署Hive 69
10.1实验目的 69
10.2实验要求 69
10.3实验原理 69
10.4实验步骤 70
10.5实验结果 71
实验十一 Hive实验:新建Hive表 73
11.1实验目的 73
11.2实验要求 73
11.3实验原理 73
11.4实验步骤 73
11.5实验结果 75
实验十二 Hive实验:Hive分区 77
12.1实验目的 77
12.2实验要求 77
12.3实验原理 77
12.4实验步骤 77
12.5实验结果 79
实验十三 Spark实验:部署Spark集群 80
13.1实验目的 80
13.2实验要求 80
13.3实验原理 80
13.4实验步骤 81
13.5实验结果 83
实验十四 Spark实验:SparkWordCount 85
14.1实验目的 85
14.2实验要求 85
14.3实验原理 85
14.4实验步骤 89
14.5实验结果 89
实验十五 Spark实验:RDD综合实验 90
15.1实验目的 90
15.2实验要求 90
15.3实验原理 90
15.4实验步骤 91
15.5实验结果 93
实验十六 Spark实验:Spark综例 94
16.1实验目的 94
16.2实验要求 94
16.3实验原理 94
16.4实验步骤 96
实验十七 Spark实验:Spark SQL 99
17.1实验目的 99
17.2实验要求 99
17.3实验原理 99
17.4实验步骤 100
17.5实验结果 101
实验十八 Spark实验:Spark Streaming 103
18.1实验目的 103
18.2实验要求 103
18.3实验原理 103
18.4实验步骤 107
18.5实验结果 110
实验十九 Spark实验:GraphX 111
19.1实验目的 111
19.2实验要求 111
19.3实验原理 111
19.4实验步骤 111
19.5实验结果 116
实验二十 部署ZooKeeper 117
20.1实验目的 117
20.2实验要求 117
20.3实验原理 117
20.4实验步骤 117
20.5实验结果 119
实验二十一 ZooKeeper进程协作 121
21.1实验目的 121
21.2实验要求 121
21.3实验原理 121
21.4实验步骤 121
21.5实验结果 123
实验二十二 部署HBase 124
22.1实验目的 124
22.2实验要求 124
22.3实验原理 124
22.4实验步骤 125
22.5实验结果 127
实验二十三 新建HBase表 128
23.1实验目的 128
23.2实验要求 128
23.3实验原理 128
23.4实验步骤 128
23.5实验结果 133
实验二十四 部署Storm 135
24.1实验目的 135
24.2实验要求 135
24.3实验原理 135
24.4实验步骤 136
24.5实验结果 138
实验二十五 实时WordCountTopology 139
25.1实验目的 139
25.2实验要求 139
25.3实验原理 139
25.4实验步骤 141
25.5实验结果 144
实验二十六 文件数据Flume至HDFS 145
26.1实验目的 145
26.2实验要求 145
26.3实验原理 145
26.4实验步骤 147
26.5实验结果 149
实验二十七 Kafka订阅推送示例 150
27.1实验目的 150
27.2实验要求 150
27.3实验原理 150
27.4实验步骤 152
27.5实验结果 154
实验二十八 Pig版WordCount 155
28.1实验目的 155
28.2实验要求 155
28.3实验原理 155
28.4实验步骤 156
28.5实验结果 158
实验二十九 Redis部署与简单使用 160
29.1实验目的 160
29.2实验要求 160
29.3实验原理 160
29.4实验步骤 162
29.5实验结果 163
实验三十 MapReduce与Spark读写Redis 164
30.1实验目的 164
30.2实验要求 164
30.3实验原理 164
30.4实验步骤 165
30.5实验结果 170
实验三十一 MongoDB实验:读写MongoDB 172
31.1实验目的 172
31.2实验要求 172
31.3实验原理 172
31.4实验步骤 173
31.5实验结果 177
实验三十二 LeveIDB实验:读写LeveIDB 178
32.1实验目的 178
32.2实验要求 178
32.3实验原理 178
32.4实验步骤 181
32.5实验结果 183
实验三十三 Mahout实验:K-Means 184
33.1实验目的 184
33.2实验要求 184
33.3实验原理 184
33.4实验步骤 187
33.5实验结果 188
实验三十四 使用Spark实现K-Means 189
34.1实验目的 189
34.2实验要求 189
34.3实验原理 189
34.4实验步骤 189
34.5实验结果 191
实验三十五 使用Spark实现SVM 192
35.1实验目的 192
35.2实验要求 192
35.3实验原理 192
35.4实验步骤 194
35.5实验结果 195
实验三十六 使用Spark实现FP-Growth 197
36.1实验目的 197
36.2实验要求 197
36.3实验原理 197
36.4实验步骤 199
36.5实验结果 200
实验三十七 综合实战:车牌识别 202
37.1实验目的 202
37.2实验要求 202
37.3实验步骤 202
37.4实验结果 209
实验三十八 综合实战:搜索引擎 211
38.1实验目的 211
38.2实验要求 211
38.3实验步骤 211
38.4实验结果 236
实验三十九 综合实战:推荐系统 239
39.1实验目的 239
39.2实验要求 239
39.3实验步骤 239
39.4实验结果 245
实验四十 综合实战:环境大数据 247
40.1实验目的 247
40.2实验要求 247
40.3实验原理 247
40.4实验步骤 247
实验四十一 综合实战:智能硬件大数据托管 259
41.1实验目的 259
41.2实验要求 259
41.3实验原理 259
41.4实验步骤 261
41.5实验结果 266
实验四十二 综合实战:贷款风险评估 268
42.1实验目的 268
42.2实验要求 268
42.3实验原理 268
42.4实验相关 269
42.5实验结果 275