《文本挖掘》PDF下载

购买积分：9 如何计算积分？
作　　者：（美）迈克尔·W.贝瑞，（美）雅克布·柯岗编
出版社：北京：机械工业出版社
出版年份：2019
ISBN：7111570509
页数：167 页

图书介绍：

点击购买此书全本PDF电子书

第1章独立文档的关键词的自动提取 1

1.1简介 1

1.1.1关键词提取方法 1

1.2快速自动关键词提取 3

1.2.1候选关键词 3

1.2.2关键词得分 4

1.2.3邻接关键词 5

1.2.4提取关键词 5

1.3基准评估 6

1.3.1准确率和召回率评估 6

1.3.2效率评估 7

1.4停用词列表生成 9

1.5新闻消息的评估 12

1.5.1 MPQA语料库 12

1.5.2从新闻消息中提取关键词 12

1.6总结 15

参考文献 16

第2章利用数学方法进行多语言文档聚类 17

2.1简介 17

2.2背景 17

2.3实验设置 18

2.4多语言LSA 20

2.5 Tucker1方法 21

2.6 PARAFAC2方法 23

2.7词对齐的LSA 24

2.8潜在形态语义分析（LMSA） 26

2.9词对齐的LMSA 27

2.10对技术和结果的讨论 27

参考文献 29

第3章使用机器学习算法对基于内容的垃圾邮件进行分类 31

3.1简介 31

3.2机器学习算法 32

3.2.1朴素贝叶斯 33

3.2.2 LogitBoost 33

3.2.3支持向量机 34

3.2.4增广的潜在语义索引空间 35

3.2.5径向基函数网络 36

3.3数据预处理 37

3.3.1特征选择 37

3.3.2信息表示 39

3.4邮件分类的评估 39

3.5实验 40

3.5.1使用PU1的实验 40

3.5.2使用ZH1的实验 42

3.6分类器特点 43

3.7结束语 45

参考文献 45

第4章利用非负矩阵分解研究邮件分类问题 47

4.1简介 47

4.1.1相关工作 48

4.1.2概要 49

4.2研究背景 49

4.2.1非负矩阵分解 49

4.2.2计算NMF的算法 50

4.2.3数据集 52

4.2.4解释 52

4.3基于特征排序的NMF初始化 54

4.3.1特征子集选择 54

4.3.2 FS初始化 55

4.4基于NMF的分类方法 57

4.4.1使用基础特征分类 58

4.4.2基于NMF的一般化LSI 59

4.5结束语 65

参考文献 66

第5章使用k-均值算法进行约束聚类 68

5.1简介 68

5.2表示法和古典k-均值算法 69

5.3具有布莱格曼散度的k-均值约束聚类算法 70

5.3.1具有“不能链接”约束关系的二次k-均值聚类 70

5.3.2“必须链接”约束关系的移除 73

5.3.3使用布莱格曼散度进行聚类 75

5.4 smoka类型约束聚类 77

5.5球形k-均值约束聚类 79

5.5.1仅有“不能链接”约束关系的球形k-均值聚类算法 80

5.5.2具有“不能链接”和“必须链接”约束关系的球形k-均值聚类 82

5.6数值实验 83

5.6.1二次k-均值聚类 84

5.6.2球形k-均值聚类 85

5.7总结 85

参考文献 86

第6章文本可视化技术的研究 88

6.1文本分析的可视化 88

6.2标签云图 89

6.3著作权及其变更的追踪 90

6.4数据探索和novel模式的探索 91

6.5情绪追踪 92

6.6可视化分析和FutureLens 94

6.7场景发现 94

6.7.1场景 94

6.7.2评估策略 95

6.8早期版本 95

6.9 FutureLens的特征 96

6.10场景发现举例：生态恐怖主义 97

6.11场景发现举例：毒品走私 101

6.12未来的工作 103

参考文献 104

第7章新颖性挖掘的自适应阈值设置 106

7.1简介 106

7.2新颖性挖掘中的自适应阈值设置 107

7.2.1背景 107

7.2.2动机 108

7.2.3基于高斯分布的自适应阈值设置 108

7.2.4实现过程中的问题 112

7.3实验研究 113

7.3.1数据集 113

7.3.2加工实例 113

7.3.3实验及结果 116

7.4总结 120

参考文献 121

第8章文本挖掘与网络犯罪 122

8.1简介 122

8.2网络欺凌和网络捕食研究的现状 123

8.2.1获取即时通信和在线聊天 124

8.2.2当前用于分析的收集 124

8.2.3对即时通信和在线聊天的分析 125

8.2.4网络捕食检测 125

8.2.5网络欺凌检测 129

8.2.6法律问题 130

8.3监控聊天的商业软件 131

8.4结论与未来的方向 132

参考文献 133

第9章文本流中的事件和发展趋势 136

9.1引言 136

9.2文本流 138

9.3特征提取和数据还原 138

9.4事件监测 139

9.5趋势检测 142

9.6事件和趋势描述 143

9.7相关讨论 147

9.8总结 147

参考文献 148

第10章在LDA主题模型中嵌入语义 150

10.1简介 150

10.2背景 150

10.2.1向量空间模型 151

10.2.2潜在语义分析 151

10.2.3概率潜在语义分析 151

10.3潜在狄利克雷分配 152

10.3.1图模型和生成过程 153

10.3.2后验推断 153

10.3.3在线潜在狄利克雷分配（OLDA） 154

10.3.4算例分析 156

10.4在维基百科中嵌入外部语义 158

10.4.1相关维基百科文章 158

10.4.2维基百科影响的主题模型 158

10.5数据驱动语义的嵌入 159

10.5.1数据驱动语义嵌入的生成过程 159

10.5.2嵌入数据驱动语义的OLDA算法 160

10.5.3实验设计 161

10.5.4实验结果 163

10.6相关工作 166

10.7结论与未来工作 166

参考文献 166