当前位置:首页 > 工业技术
面向大数据的高效能垃圾文本分类
面向大数据的高效能垃圾文本分类

面向大数据的高效能垃圾文本分类PDF电子书下载

工业技术

  • 电子书积分:9 积分如何计算积分?
  • 作 者:刘伍颖著
  • 出 版 社:北京:国防工业出版社
  • 出版年份:2014
  • ISBN:9787118097597
  • 页数:160 页
图书介绍:本书全面客观地分析了大数据时代垃圾信息的爆发态势和文本特性,并根据信息文档的多域结构特性和文本Token频率分布的幂律特性,提出了多域学习的思想,研究了一整套面向大数据的高效能垃圾文本分类方法。本书共分7章:第1章分析大数据时代垃圾信息态势;第2章概述垃圾信息过滤方法;第3章研究电子邮件文档和手机短信文档的文本特性;第4章研究多域学习总体框架;第5章提出基于Token频率索引的文本分类算法;第6章研究有监督反馈代价问题;第7章设计面向大数据的高效能垃圾文本过滤系统。本书研究的内容新颖前沿,提出的方法普适实用,设计的数据结构、算法时空高效、应用性强。本书可以作为普通高等院校、科研机构大数据计算技术相关专业高年级本科生或研究生的实验教材,也可以作为网络信息技术公司高级研究人员的参考书。
《面向大数据的高效能垃圾文本分类》目录

第1章 大数据与垃圾信息 1

1.1 大数据时代的垃圾信息 1

1.1.1 大数据和垃圾信息爆发 1

1.1.2 垃圾信息过滤研究项目 3

1.1.3 垃圾信息过滤研究意义 10

1.2 垃圾信息范畴 12

1.2.1 垃圾电子邮件 12

1.2.2 垃圾手机短信 13

1.2.3 广义垃圾信息 14

1.2.4 文本垃圾信息 14

1.3 文本垃圾信息态势 15

1.3.1 国际垃圾邮件态势 15

1.3.2 我国垃圾邮件态势 17

1.3.3 我国垃圾手机短信态势 19

1.4 研究动机与内容 21

1.4.1 科学问题与挑战 21

1.4.2 研究内容与结构 22

1.4.3 研究成果 25

本章小结 28

第2章 垃圾信息过滤方法概述 29

2.1 基于协议的垃圾信息过滤 29

2.1.1 基于SMTP的方法 30

2.1.2 基于IP的方法 31

2.2 基于内容的垃圾信息过滤 33

2.2.1 基于规则的方法 34

2.2.2 基于统计的方法 35

2.2.3 神经网络方法 38

2.2.4 集成学习方法 39

2.3 垃圾信息过滤性能评价方法 41

2.3.1 当前性能评价方法 41

2.3.2 ROC曲线评价方法 42

2.3.3 整体性能评价方法 43

本章小结 44

第3章 信息文档的文本统计特性 45

3.1 信息文档的正文特性 45

3.1.1 电子邮件和手机短信语料 45

3.1.2 正文文本长度特性 46

3.1.3 正文和Token重复特性 49

3.2 信息文档的结构特性 50

3.2.1 信息文档格式 50

3.2.2 域间文本特征 52

3.3 Token频率分布的幂律特性 54

3.3.1 幂律 54

3.3.2 邮件文档和邮件域文档 55

3.3.3 短信文档和短信域文档 60

本章小结 64

第4章 面向垃圾信息过滤的多域学习文本分类 66

4.1 问题描述与框架 66

4.1.1 形式化描述 66

4.1.2 多域学习框架 70

4.2 分割策略 72

4.2.1 自然域文档分割策略 73

4.2.2 特定属性域文档分割策略 74

4.3 组合策略 76

4.3.1 均权组合策略 76

4.3.2 支持向量模型权组合策略 77

4.3.3 域分类器历史性能权组合策略 80

4.3.4 域文档信息量权组合策略 81

4.3.5 复合权组合策略 81

4.4 实验结果 82

4.4.1 TRECO7P上的bogo实验 82

4.4.2 TRECO7P上的tftS3F实验 85

4.4.3 CSMS-P上的bogo实验 87

4.4.4 CSMS-P上的tftS3F实验 89

本章小结 91

第5章 面向垃圾信息过滤的时空高效文本分类 92

5.1 基于Token频率索引的文本分类算法 92

5.1.1 统计原理 92

5.1.2 Token频率索引 94

5.1.3 算法描述 95

5.2 算法复杂度分析 98

5.2.1 时间复杂度 99

5.2.2 空间复杂度 99

5.3 基于多类别Token频率索引的文本分类算法 104

5.3.1 Token频率统计特性 104

5.3.2 多类别Token频率索引 107

5.3.3 算法描述 108

5.4 实验结果 111

5.4.1 TRECO7P上的tfibtc实验 111

5.4.2 CSMS-P上的tfibtc实验 116

5.4.3 TanCorp-12上的mtfibtc实验 118

本章小结 121

第6章 面向垃圾信息过滤的主动学习文本分类 122

6.1 问题描述与框架 122

6.1.1 形式化描述 122

6.1.2 主动多域学习框架 125

6.2 主动学习策略 126

6.2.1 时序优先主动学习策略 126

6.2.2 先验区间主动学习策略 127

6.2.3 基于方差的非确定采样主动学习策略 127

6.3 实验结果 129

6.3.1 TRECO7P上的10000反馈tfibtc.cs5实验 129

6.3.2 TRECO7P上的1000反馈tfibtc.cs5实验 131

6.3.3 CSMS-P上的10000反馈tfibtc.cs5实验 133

6.3.4 CSMS-P上的1000反馈tfibtc.cs5实验 135

本章小结 137

第7章 面向大数据的高效能垃圾文本过滤系统 138

7.1 研究结论 138

7.1.1 多域学习框架的有效性 138

7.1.2 NFD和ASFD分割策略的有效性 139

7.1.3 复合权组合策略的最优性 140

7.1.4 基于TFI的文本分类算法的时空高效性 140

7.1.5 基于方差的非确定采样主动学习策略的有效性 141

7.2 高效能垃圾文本过滤系统设计 141

7.2.1 多Cluster垃圾文本过滤系统 141

7.2.2 多语种大数据深度舆情系统 144

7.2.3 个性化垃圾邮件过滤系统 147

本章小结 149

参考文献 151

返回顶部