第一部分 理论 2
第1章 找出词的结构 2
1.1 词及其部件 2
1.1.1 词元 2
1.1.2 词形 3
1.1.3 词素 4
1.1.4 类型学 5
1.2 问题和挑战 6
1.2.1 不规则性 6
1.2.2 歧义性 7
1.2.3 能产性 9
1.3 形态模型 10
1.3.1 查词典 11
1.3.2 有限状态形态 11
1.3.3 基于合一的形态 13
1.3.4 函数式形态 13
1.3.5 形态归纳 14
1.4 总结 15
第2章 找出文档的结构 21
2.1 概述 21
2.1.1 句子边界检测 22
2.1.2 主题边界检测 23
2.2 方法 24
2.2.1 生成序列分类方法 25
2.2.2 判别性局部分类方法 26
2.2.3 判别性序列分类方法 28
2.2.4 混合方法 28
2.2.5 句子分割的全局建模扩展 29
2.3 方法的复杂度 29
2.4 方法的性能 30
2.5 特征 30
2.5.1 同时用于文本与语音的特征 30
2.5.2 只用于文本的特征 32
2.5.3 语音特征 33
2.6 处理阶段 35
2.7 讨论 35
2.8 总结 36
第3章 句法 42
3.1 自然语言分析 42
3.2 树库:句法分析的数据驱动方法 43
3.3 句法结构的表示 46
3.3.1 使用依存图的句法分析 46
3.3.2 使用短语结构树的句法分析 49
3.4 分析算法 52
3.4.1 移进归约分析 53
3.4.2 超图和线图分析 53
3.4.3 最小生成树和依存分析 58
3.5 分析中的歧义消解模型 59
3.5.1 概率上下文无关文法 59
3.5.2 句法分析的生成模型 61
3.5.3 句法分析的判别模型 62
3.6 多语言问题:什么是词元 65
3.6.1 词元切分、实例和编码 65
3.6.2 分词 66
3.6.3 形态学 67
3.7 总结 68
第4章 语义分析 71
4.1 概述 71
4.2 语义解释 72
4.2.1 结构歧义 72
4.2.2 词义 72
4.2.3 实体与事件消解 73
4.2.4 谓词-论元结构 73
4.2.5 意义表示 73
4.3 系统范式 74
4.4 词义 74
4.4.1 资源 76
4.4.2 系统 77
4.4.3 软件 85
4.5 谓词-论元结构 85
4.5.1 资源 86
4.5.2 系统 89
4.5.3 软件 106
4.6 意义表示 106
4.6.1 资源 107
4.6.2 系统 108
4.6.3 软件 109
4.7 总结 109
4.7.1 词义消歧 110
4.7.2 谓词-论元结构 110
4.7.3 意义表示 111
第5章 语言模型 122
5.1 概述 122
5.2 n元模型 122
5.3 语言模型评价 123
5.4 参数估计 123
5.4.1 最大似然估计和平滑 123
5.4.2 贝叶斯参数估计 125
5.4.3 大规模语言模型 126
5.5 语言模型适应 127
5.6 语言模型的类型 128
5.6.1 基于类的语言模型 128
5.6.2 变长语言模型 129
5.6.3 判别式语言模型 129
5.6.4 基于句法的语言模型 130
5.6.5 最大熵语言模型 131
5.6.6 因子化语言模型 132
5.6.7 其他基于树的语言模型 133
5.6.8 基于主题的贝叶斯语言模型 134
5.6.9 神经网络语言模型 135
5.7 特定语言建模问题 136
5.7.1 形态丰富语言的建模 136
5.7.2 亚词单元的选择 138
5.7.3 形态类别建模 139
5.7.4 无分词语言 140
5.7.5 口语与书面语言 140
5.8 多语言和跨语言建模 141
5.8.1 多语言建模 141
5.8.2 跨语言建模 141
5.9 总结 143
第6章 文本蕴涵识别 151
6.1 概述 151
6.2 文本识别蕴涵任务 151
6.2.1 问题定义 152
6.2.2 RTE的挑战 153
6.2.3 评估文本蕴涵系统性能 154
6.2.4 文本蕴涵解决方案的应用 155
6.2.5 其他语言中的RTE研究 157
6.3 文本蕴涵识别的框架 158
6.3.1 要求 158
6.3.2 分析 159
6.3.3 有用的组件 159
6.3.4 通用模型 162
6.3.5 实现 164
6.3.6 对齐 168
6.3.7 推理 171
6.3.8 训练 172
6.4 案例分析 172
6.4.1 抽取语篇约束 172
6.4.2 基于编辑距离的RTE 173
6.4.3 基于转换的方法 174
6.4.4 逻辑表示及推理 176
6.4.5 独立于蕴涵学习对齐 176
6.4.6 在RTE中利用多对齐 177
6.4.7 自然逻辑 177
6.4.8 句法树核 178
6.4.9 使用有限依存上下文的全局相似度 178
6.4.10 RTE的潜在对齐推理 179
6.5 RTE的进一步研究 179
6.5.1 改进分析器 179
6.5.2 发明或解决新问题 180
6.5.3 开发知识库 180
6.5.4 更好的RTE评价 181
6.6 有用资源 182
6.6.1 文献 182
6.6.2 知识库 182
6.6.3 自然语言处理包 182
6.7 总结 183
第7章 多语情感与主观性分析 188
7.1 概述 188
7.2 定义 188
7.3 英语中的情感及主观性分析 190
7.3.1 词典 190
7.3.2 语料库 191
7.3.3 工具 191
7.4 词级和短语级标注 192
7.4.1 基于字典的方法 192
7.4.2 基于语料库的方法 194
7.5 句子级标注 196
7.5.1 基于字典 196
7.5.2 基于语料库 197
7.6 文档级标注 198
7.6.1 基于字典 198
7.6.2 基于语料库 199
7.7 什么有效,什么无效 200
7.7.1 最佳情况:已有人工标注的语料库 200
7.7.2 次优情形:基于语料库的跨语言映射 200
7.7.3 第三优情形:孳衍词典 201
7.7.4 第四优情形:翻译词典 201
7.7.5 各种可行方法的比较 201
7.8 总结 202
第二部分 实践 208
第8章 实体检测和追踪 208
8.1 概述 208
8.2 提及检测 209
8.2.1 数据驱动的分类 210
8.2.2 搜索提及 211
8.2.3 提及检测特征 213
8.2.4 提及检测实验 215
8.3 共指消解 216
8.3.1 Bell树的构建 217
8.3.2 共指模型:链接和引入模型 218
8.3.3 最大熵链接模型 219
8.3.4 共指消解实验 220
8.4 总结 221
第9章 关系和事件 225
9.1 概述 225
9.2 关系与事件 225
9.3 关系类别 226
9.4 将关系抽取视为分类 227
9.4.1 算法 227
9.4.2 特征 228
9.4.3 分类器 230
9.5 关系抽取的其他方法 231
9.5.1 无监督和半监督方法 231
9.5.2 核方法 232
9.5.3 实体和关系检测的联合方法 233
9.6 事件 233
9.7 事件抽取方法 234
9.8 超句 235
9.9 事件匹配 235
9.10 事件抽取的未来方向 237
9.11 总结 237
第10章 机器翻译 241
10.1 机器翻译现状 241
10.2 机器翻译评测 241
10.2.1 人工评测 242
10.2.2 自动评测 243
10.2.3 WER、BLEU、METEOR等 244
10.3 词对齐 246
10.3.1 共现 246
10.3.2 IBM模型1 247
10.3.3 期望最大化 247
10.3.4 对齐模型 248
10.3.5 对称化 248
10.3.6 作为机器学习问题的词对齐 250
10.4 基于短语的翻译模型 250
10.4.1 模型 251
10.4.2 训练 251
10.4.3 解码 252
10.4.4 立方剪枝 254
10.4.5 对数线性模型和参数调节 254
10.4.6 控制模型的大小 255
10.5 基于树的翻译模型 256
10.5.1 层次短语翻译模型 256
10.5.2 线图解码 257
10.5.3 基于句法的模型 258
10.6 语言学挑战 259
10.6.1 译词选择 259
10.6.2 形态学 260
10.6.3 词序 260
10.7 工具和数据资源 261
10.7.1 基本工具 261
10.7.2 机器翻译系统 262
10.7.3 平行语料 262
10.8 未来的方向 262
10.9 总结 263
第11章 跨语言信息检索 267
11.1 概述 267
11.2 文档预处理 268
11.2.1 文档句法和编码 268
11.2.2 词元化 270
11.2.3 规范化 271
11.2.4 预处理最佳实践 272
11.3 单语信息检索 272
11.3.1 文档表示 272
11.3.2 索引结构 273
11.3.3 检索模型 274
11.3.4 查询扩展 275
11.3.5 文档先验模型 276
11.3.6 模型选择的最佳实践 276
11.4 CLIR 277
11.4.1 基于翻译的方法 277
11.4.2 机器翻译 278
11.4.3 中间语言文档表示 279
11.4.4 最佳实践 280
11.5 多语言信息检索 280
11.5.1 语言识别 280
11.5.2 MLIR的索引建立 281
11.5.3 翻译查询串 281
11.5.4 聚合模型 282
11.5.5 最佳实践 282
11.6 信息检索的评价 283
11.6.1 建立实验环境 283
11.6.2 相关性评估 284
11.6.3 评价指标 284
11.6.4 已有数据集 285
11.6.5 最佳实践 286
11.7 工具、软件和资源 287
11.8 总结 288
第12章 多语自动文摘 291
12.1 概述 291
12.2 自动文摘方法 293
12.2.1 传统方法 293
12.2.2 基于图的方法 294
12.2.3 学习如何做摘要 297
12.2.4 多语自动摘要 300
12.3 评测 302
12.3.1 人工评价 302
12.3.2 自动评价 304
12.3.3 自动文摘评测系统的近期发展 306
12.3.4 多语自动文摘的自动评测方法 307
12.4 如何搭建自动文摘系统 307
12.4.1 材料 309
12.4.2 工具 309
12.4.3 说明 310
12.5 评测竞赛和数据集 311
12.5.1 评测竞赛 311
12.5.2 数据集 311
12.6 总结 312
第13章 问答系统 317
13.1 概述和历史 317
13.2 架构 318
13.3 源获取和预处理 320
13.4 问题分析 322
13.5 搜索及候选抽取 324
13.5.1 非结构化资源搜索 324
13.5.2 非结构化源文本的候选抽取 326
13.5.3 结构化源文本的候选抽取 329
13.6 回答评分 330
13.6.1 方法概述 330
13.6.2 证据结合 331
13.6.3 扩展到列表型问题 332
13.7 跨语言问答 332
13.8 案例研究 334
13.9 评测 337
13.9.1 评测任务 337
13.9.2 判断答案正确性 338
13.9.3 性能度量 339
13.10 当前和未来的挑战 340
13.11 总结和进一步阅读 341
第14章 提炼 348
14.1 概述 348
14.2 示例 349
14.3 相关性和冗余性 349
14.4 Rosetta Consortium提炼系统 351
14.4.1 文档和语料库准备 351
14.4.2 索引 354
14.4.3 查询回答 354
14.5 其他提炼方法 357
14.5.1 系统架构 357
14.5.2 相关度 357
14.5.3 冗余 358
14.5.4 多模态提炼 358
14.5.5 跨语言提炼 359
14.6 评测和指标 360
14.7 总结 362
第15章 口语对话系统 364
15.1 概述 364
15.2 口语对话系统 364
15.2.1 语音识别和理解 365
15.2.2 语音生成 367
15.2.3 对话管理器 367
15.2.4 语音用户接口 369
15.3 对话形式 371
15.4 自然语言呼叫路由选择 372
15.5 三代对话应用 372
15.6 持续的改进循环 373
15.7 口语句子的转录和标注 374
15.8 口语对话系统的本地化 374
15.8.1 呼叫流程本地化 375
15.8.2 提示本地化 375
15.8.3 文法的本地化 376
15.8.4 源端数据 376
15.8.5 训练 377
15.8.6 测试 377
15.9 总结 379
第16章 聚合自然语言处理引擎 381
16.1 概述 381
16.2 聚合语音和NLP引擎架构的期望属性 382
16.2.1 灵活的分布式组件化 382
16.2.2 计算效率 382
16.2.3 数据操作功能 383
16.2.4 鲁棒性处理 383
16.3 聚合的架构 383
16.3.1 UIMA 384
16.3.2 GATE 385
16.3.3 InfoSphere Streams 386
16.4 案例研究 386
16.4.1 GALE互操作性演示系统 387
16.4.2 跨语言自动语言开发系统 391
16.4.3 实时翻译服务 393
16.5 经验教训 393
16.5.1 分割涉及延迟和精度之间的权衡 393
16.5.2 联合优化与互操作性 393
16.5.3 数据模型需要使用约定 394
16.5.4 性能评估的挑战 394
16.5.5 引擎的前向波训练 394
16.6 总结 394
16.7 UIMA样本代码 395
索引 401