第1章 大数据与垃圾信息 1
1.1 大数据时代的垃圾信息 1
1.1.1 大数据和垃圾信息爆发 1
1.1.2 垃圾信息过滤研究项目 3
1.1.3 垃圾信息过滤研究意义 10
1.2 垃圾信息范畴 12
1.2.1 垃圾电子邮件 12
1.2.2 垃圾手机短信 13
1.2.3 广义垃圾信息 14
1.2.4 文本垃圾信息 14
1.3 文本垃圾信息态势 15
1.3.1 国际垃圾邮件态势 15
1.3.2 我国垃圾邮件态势 17
1.3.3 我国垃圾手机短信态势 19
1.4 研究动机与内容 21
1.4.1 科学问题与挑战 21
1.4.2 研究内容与结构 22
1.4.3 研究成果 25
本章小结 28
第2章 垃圾信息过滤方法概述 29
2.1 基于协议的垃圾信息过滤 29
2.1.1 基于SMTP的方法 30
2.1.2 基于IP的方法 31
2.2 基于内容的垃圾信息过滤 33
2.2.1 基于规则的方法 34
2.2.2 基于统计的方法 35
2.2.3 神经网络方法 38
2.2.4 集成学习方法 39
2.3 垃圾信息过滤性能评价方法 41
2.3.1 当前性能评价方法 41
2.3.2 ROC曲线评价方法 42
2.3.3 整体性能评价方法 43
本章小结 44
第3章 信息文档的文本统计特性 45
3.1 信息文档的正文特性 45
3.1.1 电子邮件和手机短信语料 45
3.1.2 正文文本长度特性 46
3.1.3 正文和Token重复特性 49
3.2 信息文档的结构特性 50
3.2.1 信息文档格式 50
3.2.2 域间文本特征 52
3.3 Token频率分布的幂律特性 54
3.3.1 幂律 54
3.3.2 邮件文档和邮件域文档 55
3.3.3 短信文档和短信域文档 60
本章小结 64
第4章 面向垃圾信息过滤的多域学习文本分类 66
4.1 问题描述与框架 66
4.1.1 形式化描述 66
4.1.2 多域学习框架 70
4.2 分割策略 72
4.2.1 自然域文档分割策略 73
4.2.2 特定属性域文档分割策略 74
4.3 组合策略 76
4.3.1 均权组合策略 76
4.3.2 支持向量模型权组合策略 77
4.3.3 域分类器历史性能权组合策略 80
4.3.4 域文档信息量权组合策略 81
4.3.5 复合权组合策略 81
4.4 实验结果 82
4.4.1 TRECO7P上的bogo实验 82
4.4.2 TRECO7P上的tftS3F实验 85
4.4.3 CSMS-P上的bogo实验 87
4.4.4 CSMS-P上的tftS3F实验 89
本章小结 91
第5章 面向垃圾信息过滤的时空高效文本分类 92
5.1 基于Token频率索引的文本分类算法 92
5.1.1 统计原理 92
5.1.2 Token频率索引 94
5.1.3 算法描述 95
5.2 算法复杂度分析 98
5.2.1 时间复杂度 99
5.2.2 空间复杂度 99
5.3 基于多类别Token频率索引的文本分类算法 104
5.3.1 Token频率统计特性 104
5.3.2 多类别Token频率索引 107
5.3.3 算法描述 108
5.4 实验结果 111
5.4.1 TRECO7P上的tfibtc实验 111
5.4.2 CSMS-P上的tfibtc实验 116
5.4.3 TanCorp-12上的mtfibtc实验 118
本章小结 121
第6章 面向垃圾信息过滤的主动学习文本分类 122
6.1 问题描述与框架 122
6.1.1 形式化描述 122
6.1.2 主动多域学习框架 125
6.2 主动学习策略 126
6.2.1 时序优先主动学习策略 126
6.2.2 先验区间主动学习策略 127
6.2.3 基于方差的非确定采样主动学习策略 127
6.3 实验结果 129
6.3.1 TRECO7P上的10000反馈tfibtc.cs5实验 129
6.3.2 TRECO7P上的1000反馈tfibtc.cs5实验 131
6.3.3 CSMS-P上的10000反馈tfibtc.cs5实验 133
6.3.4 CSMS-P上的1000反馈tfibtc.cs5实验 135
本章小结 137
第7章 面向大数据的高效能垃圾文本过滤系统 138
7.1 研究结论 138
7.1.1 多域学习框架的有效性 138
7.1.2 NFD和ASFD分割策略的有效性 139
7.1.3 复合权组合策略的最优性 140
7.1.4 基于TFI的文本分类算法的时空高效性 140
7.1.5 基于方差的非确定采样主动学习策略的有效性 141
7.2 高效能垃圾文本过滤系统设计 141
7.2.1 多Cluster垃圾文本过滤系统 141
7.2.2 多语种大数据深度舆情系统 144
7.2.3 个性化垃圾邮件过滤系统 147
本章小结 149
参考文献 151