第1章 概述 1
1.1 论著主题的提出 1
1.2 短语识别概述 3
1.2.1 研究背景及意义 3
1.2.2 研究难点 9
1.2.3 国内外研究现状 17
1.3 信息抽取概述 27
1.3.1 信息抽取定义 27
1.3.2 信息抽取处理对象 28
1.3.3 研究背景及意义 30
1.3.4 国内外研究现状 35
1.3.5 与其他文本处理工具的关系 39
1.3.6 信息抽取技术的挑战和发展趋势 41
第2章 隐马尔可夫模型理论基础 45
2.1 HMM简介 45
2.2 HMM的三个基本问题 49
2.3 HMM的主要算法 50
2.3.1 评估问题的解决算法 50
2.3.2 学习问题的解决算法 51
2.3.3 解码问题的解决算法 52
2.3.4 实现HMM算法的问题 53
2.4 二阶HMM 54
2.4.1 二阶HMM的前向—后向算法 55
2.4.2 二阶HMM的Baum-Welch算法 56
2.4.3 二阶HMM的Viterbi算法 56
2.5 小结 57
第3章 短语识别的HMM方法研究 58
3.1 汉语短语的基本知识 58
3.1.1 汉语短语的标注体系 58
3.1.2 短语的组成定义 62
3.1.3 短语的句法功能分类框架 64
3.2 基于规则的汉语短语识别 70
3.2.1 汉语短语np、vp结构的统计与分析 70
3.2.2 汉语短语np、vp识别的定界规则 80
3.2.3 汉语短语np、vp的句法语义分析 85
3.2.4 基于规则的汉语短语np、vp的自动识别 99
3.3 基于支持向量机的短语识别 102
3.3.1 支持向量机介绍 102
3.3.2 动词短语相关知识介绍 116
3.3.3 动词短语特征提取 121
3.3.4 动词短语向量空间模型的建立 125
3.3.5 基于SVM的动词短语识别 127
3.3.6 实验模型及结果分析 130
3.4 基于HMM的短语识别 136
3.4.1 层次分析法介绍 136
3.4.2 相关资源建设 139
3.4.3 HMM模型的设计 146
3.4.4 模型的实验与结果分析 160
3.5 基于遗传算法和HMM的短语识别 171
3.5.1 遗传算法简介 171
3.5.2 HMM模型的建立 177
3.5.3 基于遗传算法的HMM参数估计 179
3.5.4 基于GA-HM的NP识别 181
3.5.5 实验结果及分析 182
3.6 几种短语识别方法的比较 184
3.6.1 理论比较 184
3.6.2 实验比较 188
3.7 小结 190
第4章 信息抽取的HMM方法研究 192
4.1 基于HMM的信息抽取 192
4.1.1 数据预处理 193
4.1.2 数据分块 194
4.1.3 HMM的构建 196
4.1.4 HMM信息抽取过程 197
4.1.5 实验结果与分析 198
4.2 基于遗传算法和HMM的信息抽取 200
4.2.1 基于GA-HMM的Web信息抽取 200
4.2.2 基于GA-HMM模型在Web信息抽取中的改进 201
4.2.3 基于GA-HMM2的信息抽取模型建立及实验结果 208
4.3 基于模拟退火和HMM的信息抽取 211
4.3.1 模拟退火算法简介 211
4.3.2 基于SA-HMM的Web信息抽取 216
4.3.3 SA-HMM模型在Web信息抽取中的改进 218
4.3.4 信息抽取过程及实验结果分析 223
4.4 基于遗传退火和HMM的信息抽取 226
4.4.1 基于混合HMM的Web信息抽取 227
4.4.2 HMM的改进及有效性分析 228
4.4.3 基于改进遗传退火HMM的Web信息抽取 230
4.5 基于最大熵与HMM的信息抽取 241
4.5.1 最大熵原理 241
4.5.2 基于最大熵与HMM的信息抽取 244
4.5.3 基于混合条件模型的信息抽取 246
4.5.4 实验结果与分析 250
4.6 基于自适应混合智能优化算法与HMM的信息抽取 251
4.6.1 粒子群优化算法 252
4.6.2 细菌觅食优化算法 261
4.6.3 自适应混合智能优化算法 265
4.6.4 基于自适应混合智能算法与HMM的信息抽取 276
4.6.5 实验结果及分析 282
4.7 几种信息抽取方法的比较 285
4.7.1 理论比较 285
4.7.2 实验比较 294
4.8 小结 296
第5章 短语识别与信息抽取的关系及HMM方法比较 297
第6章 结语 302
6.1 研究工作总结 302
6.2 展望 304
附录1 符号代码说明 306
附录2 《现代汉语语法信息词典》动词库专有项目 308
附录3 测试句样例 311
附录4 自适应混合智能算法ABSO与另5种算法比较的代码 315
参考文献 335