文本挖掘PDF电子书下载
- 电子书积分:9 积分如何计算积分?
- 作 者:(美)迈克尔·W.贝瑞,(美)雅克布·柯岗编
- 出 版 社:北京:机械工业出版社
- 出版年份:2019
- ISBN:7111570509
- 页数:167 页
第1章 独立文档的关键词的自动提取 1
1.1简介 1
1.1.1关键词提取方法 1
1.2快速自动关键词提取 3
1.2.1候选关键词 3
1.2.2关键词得分 4
1.2.3邻接关键词 5
1.2.4提取关键词 5
1.3基准评估 6
1.3.1准确率和召回率评估 6
1.3.2效率评估 7
1.4停用词列表生成 9
1.5新闻消息的评估 12
1.5.1 MPQA语料库 12
1.5.2从新闻消息中提取关键词 12
1.6总结 15
参考文献 16
第2章 利用数学方法进行多语言文档聚类 17
2.1简介 17
2.2背景 17
2.3实验设置 18
2.4多语言LSA 20
2.5 Tucker1方法 21
2.6 PARAFAC2方法 23
2.7词对齐的LSA 24
2.8潜在形态语义分析(LMSA) 26
2.9词对齐的LMSA 27
2.10对技术和结果的讨论 27
参考文献 29
第3章 使用机器学习算法对基于内容的垃圾邮件进行分类 31
3.1简介 31
3.2机器学习算法 32
3.2.1朴素贝叶斯 33
3.2.2 LogitBoost 33
3.2.3支持向量机 34
3.2.4增广的潜在语义索引空间 35
3.2.5径向基函数网络 36
3.3数据预处理 37
3.3.1特征选择 37
3.3.2信息表示 39
3.4邮件分类的评估 39
3.5实验 40
3.5.1使用PU1的实验 40
3.5.2使用ZH1的实验 42
3.6分类器特点 43
3.7结束语 45
参考文献 45
第4章 利用非负矩阵分解研究邮件分类问题 47
4.1简介 47
4.1.1相关工作 48
4.1.2概要 49
4.2研究背景 49
4.2.1非负矩阵分解 49
4.2.2计算NMF的算法 50
4.2.3数据集 52
4.2.4解释 52
4.3基于特征排序的NMF初始化 54
4.3.1特征子集选择 54
4.3.2 FS初始化 55
4.4基于NMF的分类方法 57
4.4.1使用基础特征分类 58
4.4.2基于NMF的一般化LSI 59
4.5结束语 65
参考文献 66
第5章 使用k-均值算法进行约束聚类 68
5.1简介 68
5.2表示法和古典k-均值算法 69
5.3具有布莱格曼散度的k-均值约束聚类算法 70
5.3.1具有“不能链接”约束关系的二次k-均值聚类 70
5.3.2“必须链接”约束关系的移除 73
5.3.3使用布莱格曼散度进行聚类 75
5.4 smoka类型约束聚类 77
5.5球形k-均值约束聚类 79
5.5.1仅有“不能链接”约束关系的球形k-均值聚类算法 80
5.5.2具有“不能链接”和“必须链接”约束关系的球形k-均值聚类 82
5.6数值实验 83
5.6.1二次k-均值聚类 84
5.6.2球形k-均值聚类 85
5.7总结 85
参考文献 86
第6章 文本可视化技术的研究 88
6.1文本分析的可视化 88
6.2标签云图 89
6.3著作权及其变更的追踪 90
6.4数据探索和novel模式的探索 91
6.5情绪追踪 92
6.6可视化分析和FutureLens 94
6.7场景发现 94
6.7.1场景 94
6.7.2评估策略 95
6.8早期版本 95
6.9 FutureLens的特征 96
6.10场景发现举例:生态恐怖主义 97
6.11场景发现举例:毒品走私 101
6.12未来的工作 103
参考文献 104
第7章 新颖性挖掘的自适应阈值设置 106
7.1简介 106
7.2新颖性挖掘中的自适应阈值设置 107
7.2.1背景 107
7.2.2动机 108
7.2.3基于高斯分布的自适应阈值设置 108
7.2.4实现过程中的问题 112
7.3实验研究 113
7.3.1数据集 113
7.3.2加工实例 113
7.3.3实验及结果 116
7.4总结 120
参考文献 121
第8章 文本挖掘与网络犯罪 122
8.1简介 122
8.2网络欺凌和网络捕食研究的现状 123
8.2.1获取即时通信和在线聊天 124
8.2.2当前用于分析的收集 124
8.2.3对即时通信和在线聊天的分析 125
8.2.4网络捕食检测 125
8.2.5网络欺凌检测 129
8.2.6法律问题 130
8.3监控聊天的商业软件 131
8.4结论与未来的方向 132
参考文献 133
第9章 文本流中的事件和发展趋势 136
9.1引言 136
9.2文本流 138
9.3特征提取和数据还原 138
9.4事件监测 139
9.5趋势检测 142
9.6事件和趋势描述 143
9.7相关讨论 147
9.8总结 147
参考文献 148
第10章 在LDA主题模型中嵌入语义 150
10.1简介 150
10.2背景 150
10.2.1向量空间模型 151
10.2.2潜在语义分析 151
10.2.3概率潜在语义分析 151
10.3潜在狄利克雷分配 152
10.3.1图模型和生成过程 153
10.3.2后验推断 153
10.3.3在线潜在狄利克雷分配(OLDA) 154
10.3.4算例分析 156
10.4在维基百科中嵌入外部语义 158
10.4.1相关维基百科文章 158
10.4.2维基百科影响的主题模型 158
10.5数据驱动语义的嵌入 159
10.5.1数据驱动语义嵌入的生成过程 159
10.5.2嵌入数据驱动语义的OLDA算法 160
10.5.3实验设计 161
10.5.4实验结果 163
10.6相关工作 166
10.7结论与未来工作 166
参考文献 166
- 《潜文本的阐释与翻译》刘早著 2019
- 《并行数据挖掘及性能优化》荀亚玲著 2020
- 《人工智能与数据挖掘的原理及应用》黄尚科编著 2019
- 《古徽州 中英日韩文本》向晓阳摄影 2004
- 《基于Python的智能文本分析》BenjaminB 2019
- 《生态批评 理论实践与文本 英文》李显文著 2015
- 《基于文本挖掘的本体学习方法研究》于娟著 2018
- 《基于群体智能优化算法的文本过滤关键技术研究》朱振方,刘培玉,尉永清著 2019
- 《细胞毒性数据挖掘技术与应用》潘天红,陈娇 2019
- 《云破月来 文本深读与语文核心素养》(中国)司保峰 2019
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《魔法销售台词》(美)埃尔默·惠勒著 2019
- 《看漫画学钢琴 技巧 3》高宁译;(日)川崎美雪 2019
- 《优势谈判 15周年经典版》(美)罗杰·道森 2018
- 《社会学与人类生活 社会问题解析 第11版》(美)James M. Henslin(詹姆斯·M. 汉斯林) 2019
- 《海明威书信集:1917-1961 下》(美)海明威(Ernest Hemingway)著;潘小松译 2019
- 《海洋文明小史》倪谦谦责编;王存苗译;(法)雅克·阿塔利 2020
- 《古代巴比伦》(英)莱昂纳德·W.金著 2019
- 《迁徙 默温自选诗集 上》(美)W.S.默温著;伽禾译 2020
- 《上帝的孤独者 下 托马斯·沃尔夫短篇小说集》(美)托马斯·沃尔夫著;刘积源译 2017
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《高等教育双机械基础课程系列教材 高等学校教材 机械设计课程设计手册 第5版》吴宗泽,罗圣国,高志,李威 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017
- 《新工业时代 世界级工业家张毓强和他的“新石头记”》秦朔 2019
- 《智能制造高技能人才培养规划丛书 ABB工业机器人虚拟仿真教程》(中国)工控帮教研组 2019
- 《AutoCAD机械设计实例精解 2019中文版》北京兆迪科技有限公司编著 2019