第1章 文本挖掘概述 1
1.1 文本挖掘的产生背景 1
1.2 文本 2
1.2.1 文本格式 2
1.2.2 动态文本集 3
1.3 文本挖掘的概念 3
1.4 文本挖掘的任务 4
1.4.1 文本挖掘预处理 4
1.4.2 文本模式挖掘 4
1.4.3 挖掘结果可视化 5
1.5 文本挖掘系统的通用体系结构 6
第2章 文本表示 9
2.1 向量空间模型 9
2.1.1 权值计算 9
2.1.2 向量相似度度量 11
2.2 概率模型 11
2.3 概念模型 12
2.3.1 概念 12
2.3.2 概念词典 12
2.3.3 概念距离 13
2.3.4 概念相似度 13
2.3.5 基于概念的文本表示模型的构建 14
2.3.6 计算概念特征权值 14
2.4 特征生成 14
2.4.1 常用的文本特征 15
2.4.2 各种特征比较 16
2.4.3 特征维数 17
2.4.4 领域知识和背景知识 17
2.5 特征选择 18
2.6 特征抽取 18
2.6.1 潜在语义分析 19
2.6.2 同义项合并 20
第3章 文本挖掘预处理——文本分类 21
3.1 文本分类的种类 21
3.1.1 单标签分类与多标签分类 21
3.1.2 文本主元与类别主元分类 21
3.1.3 硬分类和软分类 22
3.2 文本分类的应用 22
3.2.1 文本索引 22
3.2.2 文本过滤 23
3.2.3 网页分类 23
3.3 文本分类的知识工程方法 23
3.4 文本分类的机器学习方法 24
3.4.1 概率分类器 24
3.4.2 贝叶斯回归分析 25
3.4.3 决策树分类器 26
3.4.4 决策规则分类器 27
3.4.5 Rocchio分类器 27
3.4.6 神经网络分类器 27
3.4.7 支持向量机 28
3.4.8 分类器融合 28
3.4.9 Boosting分类器 29
3.5 Bootstrapping算法 29
3.5.1 AutoSlog-TS系统 29
3.5.2 交互式Bootstrapping算法 31
3.5.3 Metabootstrapping算法 32
3.5.4 基于句法启发式的Bootstrapping算法 33
3.5.5 Basilisk算法 34
3.5.6 基于术语类别的Bootstrapping算法 36
3.6 文本分类器的评价 36
3.6.1 性能度量 37
3.6.2 标准数据集 37
3.6.3 分类器比较 37
第4章 文本挖掘预处理——文本聚类 39
4.1 聚类的任务 39
4.1.1 检索召回率的改进 39
4.1.2 检索正确率的改进 39
4.1.3 分割/聚合 40
4.1.4 特殊查询的聚类 40
4.2 聚类的基本问题 40
4.2.1 问题描述 40
4.2.2 相似度量 41
4.3 聚类算法 41
4.3.1 K均值算法 42
4.3.2 基于EM的概率模糊聚类算法 42
4.3.3 层次聚类法 43
4.3.4 其他聚类算法 43
4.4 文本聚类 44
4.4.1 文本聚类描述 44
4.4.2 文本聚类中的特征选择 44
4.4.3 文本聚类测试 45
第5章 文本挖掘核心操作——信息抽取 46
5.1 信息抽取简介 46
5.2 信息抽取任务 48
5.2.1 命名实体识别 48
5.2.2 模板元素 49
5.2.3 模板关系 50
5.2.4 背景模板 50
5.2.5 共指任务 50
5.3 信息抽取实例 51
5.3.1 事件框架抽取 51
5.3.2 小情报类型的信息抽取 52
5.3.3 信息抽取过程 54
5.4 信息抽取系统的体系结构 55
5.5 指代消解 59
5.5.1 回指和共指 59
5.5.2 代词消解方法 61
5.6 规则学习 63
5.6.1 WHISK 63
5.6.2 BWI 64
5.6.3 (LP)2算法 65
5.6.4 实验评价 65
5.7 视觉信息抽取 66
5.7.1 视觉信息的概念 66
5.7.2 视觉信息抽取任务 66
5.7.3 视觉元素感知 67
5.7.4 基于O-型树的视觉信息相似计算 68
5.7.5 基于模板的视觉信息相似计算 71
5.7.6 实验结果 71
第6章 文本挖掘核心操作——关系抽取 74
6.1 实体关系抽取 74
6.1.1 实体关系 74
6.1.2 实体关系抽取方法 74
6.1.3 实体关系标注 76
6.1.4 实体关系特征信息 77
6.2 Web中的实体关系发现 78
6.2.1 先确定关系模式的方法 78
6.2.2 后确定关系模式的方法 83
6.3 实体关系发现的难点 84
6.3.1 实体关系对的确定 84
6.3.2 实体关系描述文本的筛选与扩展 84
6.3.3 实体关系对的验证 85
6.3.4 实体关系体系的发现 85
6.4 基于社会网络的实体关系发现 86
6.4.1 社会网络概念 86
6.4.2 社会网络构建 86
6.4.3 实体关系发现 87
6.5 实体包含关系的抽取 89
6.5.1 特征选择 89
6.5.2 实验结果及分析 92
6.6 基于全信息的隐含的多实体关系抽取 94
6.6.1 全信息的自然语言理解方法 94
6.6.2 语法知识的自动抽取 96
6.6.3 语义知识的自动抽取 99
6.6.4 语用知识的自动抽取 99
6.6.5 基于全信息的实体关系分析方法 100
6.7 基于核函数的实体关系抽取 102
6.7.1 相关工作 102
6.7.2 引入先验知识的核函数 103
6.7.3 Convolution核函数 104
6.7.4 基于语义核函数的KNN机器学习算法 106
6.8 基于混合概率模型的实体关系抽取系统——TEG 110
6.8.1 混合模型概述 110
6.8.2 TEG文法说明 111
6.8.3 TEG训练 112
6.8.4 额外特征 114
6.8.5 规则抽取实例 115
6.8.6 TEG实验评估 117
第7章 文本挖掘核心操作——关联分析 120
7.1 实例——“9.11”劫机者 120
7.2 网络的自动布局算法 121
7.2.1 Kamada和Kawai(KK)方法 121
7.2.2 Fruchterman-Reingold(FR)方法 122
7.3 实体之间的关联路径 123
7.4 中心性 124
7.4.1 顶点中心性 124
7.4.2 网络中心性 131
7.4.3 概要图 131
7.5 网络的分割 132
7.5.1 基于核的分割算法 133
7.5.2 经典图分隔算法 134
7.5.3 基于实体之间等价的分割算法 135
7.5.4 基于实体之间等价的分割算法 138
7.6 网络中的模式匹配 144
7.7 关联分析软件包 145
7.7.1 Pajek 145
7.7.2 UCINET 145
7.7.3 NetMiner 145
第8章 文本挖掘结果的可视化 146
8.1 浏览器 146
8.1.1 概念分布的显示和浏览 148
8.1.2 关联的显示和搜索 149
8.1.3 利用概念分层方法进行的导航和搜索 150
8.2 表示层 151
8.2.1 表示层编辑器 151
8.2.2 表示层的访问约束和简单的过滤规范 152
8.3 文本知识发现语言KDTL 153
8.3.1 KDTL概述 154
8.3.2 KDTL查询实例 155
8.3.3 KDTL查询界面实现 156
8.4 可视化方法 158
8.4.1 可视化组件在文本挖掘系统中的位置 158
8.4.2 文本挖掘的通用可视化方法 159
第9章 文本挖掘的应用 172
9.1 行业分析器 172
9.1.1 基本架构和功能 173
9.1.2 应用背景 179
9.2 专利分析解决方案 184
9.2.1 基础构架和功能 185
9.2.2 应用背景 190
9.3 生物学路径信息挖掘 192
9.3.1 基本架构和功能 193
9.3.2 应用背景 195
第10章 专门用于文本挖掘的信息抽取语言——DIAL 199
10.1 文本模式定义 199
10.2 基于DIAL的信息抽取 200
10.3 文本标注 201
10.4 概念和规则结构 202
10.5 模式匹配 204
10.6 模板元素 205
10.6.1 字符串常量 205
10.6.2 字词类名称 205
10.6.3 同义词名称 206
10.6.4 概念名称 206
10.6.5 字符级规则表达式 207
10.6.6 字符类 207
10.6.7 视觉属性 208
10.6.8 词例模式元素 208
10.7 规则约束和概念保护 208
10.7.1 规则约束 208
10.7.2 概念保护 209
10.8 DIAL实例 210
10.8.1 基于标题/职位的人名抽取 210
10.8.2 基于前驱动词的抽取人名列表 211
10.8.3 同义词抽取位置名称 211
10.8.4 创建本地人名词典 212
10.8.5 一个简化的解决人称代词的指代消解规则 212
10.8.6 家庭关系抽取 213
参考文献 215