1 绪论 1
1.1 背景知识 1
1.1.1 研究背景 1
1.1.2 研究意义 2
1.2 网络测量技术 2
1.2.1 网络测量常见对象 3
1.2.2 网络测量分析的问题 3
1.2.3 单点测量常用方法 4
1.2.4 单点网络测量常用工具 4
1.2.5 分布式网络测量技术 5
1.3 分类算法 6
1.3.1 决策树 6
1.3.2 贝叶斯分类 6
1.3.3 支持向量机 8
1.4 C4.5算法 9
1.4.1 算法概述 9
1.4.2 决策树的分割 10
1.4.3 决策树的剪枝 11
1.4.4 剪枝实例 12
1.4.5 十折交叉验证方法 14
1.4.6 测度子集选择方法 15
1.5 数据挖掘方法 16
1.5.1 聚类方法 16
1.5.2 k-近邻算法 17
1.6 流数据结构 18
1.6.1 Bitmap 18
1.6.2 混合Counter 19
1.6.3 Count-Min Sketch 19
1.6.4 Bloom Filter 19
1.6.5 Counter Braids 21
1.6.6 BRICK 21
1.7 流量测量的评价指标 22
1.7.1 误报率和漏报率 22
1.7.2 相对误差 22
1.7.3 相对差 22
1.7.4 熵 23
1.8 小结 23
参考文献 24
2 互联网大数据分析系统 27
2.1 系统设计 27
2.1.1 总体设计 27
2.1.2 数据收集层设计 27
2.1.3 并行算法层设计 28
2.1.4 查询层设计 29
2.2 测度定义 30
2.2.1 输入测度 30
2.2.2 用户行为测度 30
2.2.3 输出测度 31
2.3 基于MapReduce测度的计算方法 32
2.3.1 单点TCP测度 33
2.3.2 并行TCP测度 36
2.3.3 流聚合并行方法 37
2.3.4 用户行为测度 39
2.3.5 并行算法优化 43
2.4 系统实现 43
2.4.1 存储模块实现 43
2.4.2 测度计算模块实现 44
2.4.3 用户行为分析模块实现 44
2.4.4 查询模块实现 46
2.5 实验分析 47
2.5.1 实验环境 47
2.5.2 实验平台布署 48
2.5.3 实验数据集 49
2.5.4 实验结果分析 50
2.5.5 可扩展性分析 51
2.5.6 性能瓶颈分析 51
2.6 小结 52
参考文献 52
3 超点数据流检测方法 54
3.1 引言 54
3.2 并行数据流方法 55
3.2.1 方法描述 55
3.2.2 相关定义 55
3.2.3 数据结构 56
3.2.4 更新归并过程 57
3.2.5 链接度估计 58
3.2.6 超点检测 59
3.3 性能分析 60
3.3.1 存储开销 60
3.3.2 准确性 60
3.3.3 计算性能 62
3.4 实验分析 62
3.4.1 实验数据 63
3.4.2 评价标准 63
3.4.3 链接度估计 63
3.4.4 参数评估 65
3.4.5 算法对比 67
3.5 小结 70
参考文献 70
4 长持续时间流检测方法 72
4.1 引言 72
4.2 问题定义 73
4.3 数据结构 74
4.4 基于共享数据结构的检测方法 75
4.4.1 方法描述 75
4.4.2 方法流程 75
4.4.3 实验结果分析 77
4.5 基于独立数据结构的检测方法 78
4.5.1 方法描述 78
4.5.2 方法流程 79
4.5.3 性能分析 79
4.5.4 实验结果分析 80
4.6 小结 83
参考文献 83
5 大流的自适应抽样识别方法 85
5.1 引言 85
5.2 大流识别方法 86
5.2.1 问题定义 86
5.2.2 方法描述 86
5.2.3 自适应抽样 87
5.2.4 数据划分 89
5.2.5 大流识别 89
5.3 实验结果分析 89
5.3.1 实验环境 89
5.3.2 估计精度 90
5.3.3 负载均衡 91
5.3.4 可扩展性 92
5.3.5 数据更新 92
5.3.6 Reducer数量 92
5.4 小结 93
参考文献 93
6 流量异常的信息熵检测方法 94
6.1 引言 94
6.1.1 研究背景 94
6.1.2 研究意义 95
6.1.3 相关研究 95
6.1.4 本章内容 99
6.2 信息熵灵敏度分析 100
6.2.1 理论分析 100
6.2.2 实验分析 101
6.2.3 分析结论 103
6.3 流量异常检测方法 105
6.3.1 测度定义 105
6.3.2 基于Kmeans的阈值选择 110
6.3.3 正常流量BID学习 111
6.3.4 验证方案 114
6.4 实验结果分析 117
6.4.1 实验环境 117
6.4.2 攻击流量获取 118
6.4.3 攻击检测能力评估 120
6.4.4 检测准确性 123
6.5 小结 125
参考文献 126
7 网页关联分析方法 128
7.1 概述 128
7.1.1 研究背景 128
7.1.2 研究意义 129
7.1.3 相关研究 130
7.2 网页关联概念 133
7.2.1 定义 133
7.2.2 问题描述 133
7.2.3 输入输出描述 133
7.2.4 分类 133
7.2.5 网页引用方法 134
7.3 基于DPI的网页关联方法 134
7.3.1 方法概述 134
7.3.2 基于HTTP头信息的引用发现方法 134
7.3.3 请求网页父引用提取方法 135
7.3.4 HTTP网页解码算法 135
7.3.5 基于网页内容的引用发现算法 136
7.3.6 父子引用关联方法 138
7.4 DPI关联方法实验分析 140
7.4.1 在线采集数据分析 140
7.4.2 被动测量数据关联分析 142
7.5 网页关联存在的问题 143
7.5.1 页面悬浮广告 143
7.5.2 弹出窗口广告 145
7.5.3 link href 147
7.5.4 广告关联问题分析 147
7.6 算法改进对比 148
7.6.1 测试一 149
7.6.2 测试二 149
7.6.3 测试三 151
7.7 基于DFI的网页关联方法 152
7.7.1 主流识别规则 152
7.7.2 辅流关联方法 155
7.7.3 实验结果分析 156
7.8 小结 160
参考文献 161
8 面向网络流的分类方法 163
8.1 引言 163
8.1.1 测度定义 163
8.1.2 背景研究 163
8.1.3 研究意义 165
8.2 流特征选择方法 166
8.2.1 特征选择方法 167
8.2.2 混合特征选择 170
8.2.3 实验结果分析 173
8.3 代价敏感分类方法 176
8.3.1 数据重采样 177
8.3.2 代价敏感学习 179
8.3.3 基于AdaCost的分类算法 181
8.3.4 实验结果分析 184
8.5 集成学习分类方法 186
8.5.1 集成学习基本概念 186
8.5.2 基于均值决策的集成学习方法 187
8.5.3 基于精度权重的集成学习方法 189
8.5.4 基于代价敏感的集成学习方法 190
8.5.5 实验结果分析 192
8.6 小结 196
参考文献 197
9 基于覆盖网监测的故障推理 200
9.1 研究背景及意义 200
9.2 基本概念 201
9.2.1 社区的概念 201
9.2.2 覆盖网 202
9.2.3 chord 204
9.3 数据处理 208
9.3.1 集中式处理的问题 209
9.3.2 负载均衡 209
9.3.3 症状数据存取索引 211
9.3.4 症状数据预处理 212
9.4 故障推理算法 214
9.4.1 客户端故障判断算法 214
9.4.2 现有方法 215
9.4.3 故障推理算法 217
9.4.4 算法设计 218
9.5 系统设计实现 219
9.5.1 系统设计 219
9.5.2 实验工具 223
9.5.3 实验环境 224
9.5.4 实验结果分析 225
9.6 小结 230
参考文献 230