第1章 文本挖掘概述 1
1.1 文本挖掘有什么特别之处? 1
1.1.1 结构化或非结构化数据? 2
1.1.2 文本数据是否不同于数值数据? 3
1.2 文本挖掘可以解决什么类型的问题? 5
1.3 文本分类 6
1.4 信息检索 7
1.5 文档聚类与组织 8
1.6 信息提取 9
1.7 预测与评估 10
1.8 下一章内容 10
1.9 小结 11
1.10 历史与文献评述 11
1.11 问题与练习 12
第2章 从文本信息到数值向量 13
2.1 文档收集 13
2.2 文档标准化 15
2.3 标记化 17
2.4 词形转化 20
2.4.1 词干变形 20
2.4.2 化词干为词根 21
2.5 预测向量生成 22
2.5.1 多词特征 28
2.5.2 正确答案的标签 30
2.5.3 通过属性分级选择特征 31
2.6 语句边界确定 32
2.7 词性标签化 33
2.8 词义消歧 35
2.9 短语识别 35
2.10 命名实体识别 36
2.11 语法分析 36
2.12 特征生成 38
2.13 小结 39
2.14 历史与文献评述 40
2.15 课后练习 42
第3章 用文本进行预测 43
3.1 识别文档符合模式 45
3.2 需要多少文档才可以满足预测需求? 47
3.3 文档分类 48
3.4 从文本中学习预测 49
3.4.1 相似性与最近邻法 50
3.4.2 文档相似性 51
3.4.3 决策规则 53
3.4.4 决策树 59
3.4.5 概率估计 61
3.4.6 线性评分方法 63
3.5 性能评估 72
3.5.1 当前与未来的性能估计 72
3.5.2 从学习方法中获取最大收益 74
3.6 应用 75
3.7 小结 75
3.8 历史与文献评述 76
3.9 问题与练习 78
第4章 信息检索和文本挖掘 79
4.1 信息检索是文本挖掘的一种形式吗? 79
4.2 关键字搜索 80
4.3 最近邻法 81
4.4 度量相似度 82
4.4.1 相同单词计数 82
4.4.2 单词计数和奖励 83
4.4.3 余弦相似度 84
4.5 基于Web的文档搜索 85
4.5.1 链接分析 86
4.6 文档匹配 90
4.7 反向列表 90
4.8 性能评估 93
4.9 小结 94
4.10 历史与文献评述 94
4.11 问题与练习 95
第5章 文档集的结构发现 96
5.1 基于相似性的文档聚类 98
5.2 复合文档的相似度 99
5.2.1 k-means聚类 101
5.2.2 分层聚类 105
5.2.3 EM算法 107
5.3 聚类标记有什么含义? 111
5.4 应用 113
5.5 性能评价 114
5.6 小结 116
5.7 历史与文献评述 116
5.8 问题与练习 118
第6章 在文档中查询信息 119
6.1 信息提取的目标 119
6.2 发现文本模式和实体 122
6.2.1 实体提取作为序列标签 122
6.2.2 标签预测作为分类 123
6.2.3 最大熵方法 125
6.2.4 语言特征和编码 130
6.2.5 局部序列预测模型 132
6.2.6 全局序列预测模型 135
6.3 共指和关系提取 137
6.3.1 共指消解 137
6.3.2 关系提取 139
6.4 模板填充和数据库构建 140
6.5 应用 141
6.5.1 信息检索 141
6.5.2 商业化提取系统 142
6.5.3 犯罪学 143
6.5.4 情报工作 143
6.6 总结 145
6.7 历史与文献评述 145
6.8 问题与练习 147
第7章 面向预测的数据源:数据库、混杂数据与Web 148
7.1 数据的理想化模型 148
7.1.1 预测的理想化数据 148
7.1.2 理想的文本数据与非结构化数据 149
7.1.3 混杂数据与混合数据 150
7.2 实际数据源 151
7.3 原型化实例 153
7.3.1 基于Web的电子表格数据 153
7.3.2 基于Web的XML数据 154
7.3.3 观点数据与情绪分析 157
7.4 混杂数据实例:独立来源的数值数据与文本数据 159
7.5 采用标准表格格式的混合数据 161
7.6 总结 163
7.7 历史与文献评述 163
7.8 问题与练习 164
第8章 实例分析 165
8.1 互联网市场调研 165
8.1.1 问题描述 165
8.1.2 解决概览 166
8.1.3 方法与过程 167
8.1.4 系统部署 168
8.2 面向数字图书馆的轻型文档匹配 169
8.2.1 问题描述 169
8.2.2 解决概览 170
8.2.3 方法与过程 171
8.2.4 系统部署 172
8.3 生成帮助桌面应用的模本范例 173
8.3.1 问题描述 173
8.3.2 解决概览 174
8.3.3 方法与过程 174
8.3.4 系统部署 176
8.4 新闻文章主题指定 176
8.4.1 问题描述 176
8.4.2 解决概览 177
8.4.3 方法与过程 178
8.4.4 系统部署 181
8.5 邮件过滤 181
8.5.1 问题描述 181
8.5.2 解决概览 182
8.5.3 方法与过程 183
8.5.4 系统部署 184
8.6 搜索引擎 185
8.6.1 问题描述 185
8.6.2 解决概览 185
8.6.3 方法与过程 186
8.6.4 系统部署 187
8.7 文档中命名实体提取 188
8.7.1 问题描述 188
8.7.2 解决概览 189
8.7.3 方法与过程 189
8.7.4 系统部署 191
8.8 个性化报纸 192
8.8.1 问题描述 192
8.8.2 解决概览 193
8.8.3 方法与过程 193
8.8.4 系统部署 194
8.9 总结 195
8.10 历史与文献评述 195
8.11 问题与练习 196
第9章 新研究方向 197
9.1 摘要 197
9.2 主动学习 200
9.3 使用未标记的数据学习 202
9.4 收集文档样本的不同途径 202
9.4.1 文档集合与投票方法 203
9.4.2 在线学习 204
9.4.3 代价敏感学习 206
9.4.4 不稳定样本与罕见事件 207
9.5 分布式文本挖掘 207
9.6 学习排序 209
9.7 问答系统 210
9.8 总结 212
9.9 历史与文献评述 212
9.10 问题与练习 214
附录A 软件说明 215
A.1 软件概要 215
A.2 系统需求 216
A.3 下载说明 216
参考文献 217
作者索引 225
主题索引 229