面向大数据的高效能垃圾文本分类PDF电子书下载
- 电子书积分:9 积分如何计算积分?
- 作 者:刘伍颖著
- 出 版 社:北京:国防工业出版社
- 出版年份:2014
- ISBN:9787118097597
- 页数:160 页
第1章 大数据与垃圾信息 1
1.1 大数据时代的垃圾信息 1
1.1.1 大数据和垃圾信息爆发 1
1.1.2 垃圾信息过滤研究项目 3
1.1.3 垃圾信息过滤研究意义 10
1.2 垃圾信息范畴 12
1.2.1 垃圾电子邮件 12
1.2.2 垃圾手机短信 13
1.2.3 广义垃圾信息 14
1.2.4 文本垃圾信息 14
1.3 文本垃圾信息态势 15
1.3.1 国际垃圾邮件态势 15
1.3.2 我国垃圾邮件态势 17
1.3.3 我国垃圾手机短信态势 19
1.4 研究动机与内容 21
1.4.1 科学问题与挑战 21
1.4.2 研究内容与结构 22
1.4.3 研究成果 25
本章小结 28
第2章 垃圾信息过滤方法概述 29
2.1 基于协议的垃圾信息过滤 29
2.1.1 基于SMTP的方法 30
2.1.2 基于IP的方法 31
2.2 基于内容的垃圾信息过滤 33
2.2.1 基于规则的方法 34
2.2.2 基于统计的方法 35
2.2.3 神经网络方法 38
2.2.4 集成学习方法 39
2.3 垃圾信息过滤性能评价方法 41
2.3.1 当前性能评价方法 41
2.3.2 ROC曲线评价方法 42
2.3.3 整体性能评价方法 43
本章小结 44
第3章 信息文档的文本统计特性 45
3.1 信息文档的正文特性 45
3.1.1 电子邮件和手机短信语料 45
3.1.2 正文文本长度特性 46
3.1.3 正文和Token重复特性 49
3.2 信息文档的结构特性 50
3.2.1 信息文档格式 50
3.2.2 域间文本特征 52
3.3 Token频率分布的幂律特性 54
3.3.1 幂律 54
3.3.2 邮件文档和邮件域文档 55
3.3.3 短信文档和短信域文档 60
本章小结 64
第4章 面向垃圾信息过滤的多域学习文本分类 66
4.1 问题描述与框架 66
4.1.1 形式化描述 66
4.1.2 多域学习框架 70
4.2 分割策略 72
4.2.1 自然域文档分割策略 73
4.2.2 特定属性域文档分割策略 74
4.3 组合策略 76
4.3.1 均权组合策略 76
4.3.2 支持向量模型权组合策略 77
4.3.3 域分类器历史性能权组合策略 80
4.3.4 域文档信息量权组合策略 81
4.3.5 复合权组合策略 81
4.4 实验结果 82
4.4.1 TRECO7P上的bogo实验 82
4.4.2 TRECO7P上的tftS3F实验 85
4.4.3 CSMS-P上的bogo实验 87
4.4.4 CSMS-P上的tftS3F实验 89
本章小结 91
第5章 面向垃圾信息过滤的时空高效文本分类 92
5.1 基于Token频率索引的文本分类算法 92
5.1.1 统计原理 92
5.1.2 Token频率索引 94
5.1.3 算法描述 95
5.2 算法复杂度分析 98
5.2.1 时间复杂度 99
5.2.2 空间复杂度 99
5.3 基于多类别Token频率索引的文本分类算法 104
5.3.1 Token频率统计特性 104
5.3.2 多类别Token频率索引 107
5.3.3 算法描述 108
5.4 实验结果 111
5.4.1 TRECO7P上的tfibtc实验 111
5.4.2 CSMS-P上的tfibtc实验 116
5.4.3 TanCorp-12上的mtfibtc实验 118
本章小结 121
第6章 面向垃圾信息过滤的主动学习文本分类 122
6.1 问题描述与框架 122
6.1.1 形式化描述 122
6.1.2 主动多域学习框架 125
6.2 主动学习策略 126
6.2.1 时序优先主动学习策略 126
6.2.2 先验区间主动学习策略 127
6.2.3 基于方差的非确定采样主动学习策略 127
6.3 实验结果 129
6.3.1 TRECO7P上的10000反馈tfibtc.cs5实验 129
6.3.2 TRECO7P上的1000反馈tfibtc.cs5实验 131
6.3.3 CSMS-P上的10000反馈tfibtc.cs5实验 133
6.3.4 CSMS-P上的1000反馈tfibtc.cs5实验 135
本章小结 137
第7章 面向大数据的高效能垃圾文本过滤系统 138
7.1 研究结论 138
7.1.1 多域学习框架的有效性 138
7.1.2 NFD和ASFD分割策略的有效性 139
7.1.3 复合权组合策略的最优性 140
7.1.4 基于TFI的文本分类算法的时空高效性 140
7.1.5 基于方差的非确定采样主动学习策略的有效性 141
7.2 高效能垃圾文本过滤系统设计 141
7.2.1 多Cluster垃圾文本过滤系统 141
7.2.2 多语种大数据深度舆情系统 144
7.2.3 个性化垃圾邮件过滤系统 147
本章小结 149
参考文献 151
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《潜文本的阐释与翻译》刘早著 2019
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《Access数据库系统设计与应用教程》李勇帆,廖瑞华主编 2019
- 《跟孩子一起看图学英文》张紫颖著 2019
- 《中国学术思想研究辑刊 十八编 第7册 庄子〈齐物论〉「因」之辨析》何孟颖著 2014
- 《眺望家园:赴台皖籍作家论稿》朱育颖著 2018
- 《声乐演唱艺术与表演技术研究》齐颖著 2018
- 《李翱心性教育思想》郑宏颖著 2019
- 《守住发芽的梦想》王继颖著 2018
- 《福泉骊珠》晏子有,晏颖著 2019
- 《爱心伴孩子成长》肖陈颖著 2013
- 《股市从110至588》林东颖著 2013
- 《循证临床药物配伍》刘治军,宁颖著 2013
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《抗战三部曲 国防诗歌集》蒲风著 1937
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017
- 《新工业时代 世界级工业家张毓强和他的“新石头记”》秦朔 2019
- 《智能制造高技能人才培养规划丛书 ABB工业机器人虚拟仿真教程》(中国)工控帮教研组 2019
- 《陶瓷工业节能减排技术丛书 陶瓷工业节能减排与污染综合治理》罗民华著 2017