1.1 语音与语言处理中的知识 1
第1章 导论 1
1.2 歧义 3
1.3 模型和算法 4
1.4 语言、思维和理解 4
1.5 学科现状与近期发展 6
1.6 语音和语言处理简史 7
1.6.1 基础研究:20世纪40年代和20世纪50年代 7
1.6.2 两个阵营:1957年至1970年 8
1.6.3 四个范型:1970年至1983年 8
1.6.5 不同领域的合流:1994年至1999年 9
1.6.4 经验主义和有限状态模型的复苏:1983年至1993年 9
1.6.6 多重发现 10
1.6.7 心理学的简要注记 10
1.7 小结 11
1.8 文献和历史说明 11
第一部分 词汇的计算机处理 13
第2章 正则表达式与自动机 14
2.1 正则表达式 14
2.1.1 基本正则表达式模式 15
2.1.2 析取、组合与优先关系 18
2.1.3 一个简单的例子 18
2.1.4 一个比较复杂的例子 19
2.1.5 高级算符 20
2.1.6 正则表达式中的替换、存储器与ELIZA 21
2.2 有限状态自动机 22
2.2.1 用FSA来识别羊的语言 22
2.2.2 形式语言 25
2.2.3 另外的例子 26
2.2.4 非确定FSA 27
2.2.5 使用NFSA接收符号串 28
2.2.6 识别就是搜索 31
2.2.7 确定自动机与非确定自动机的关系 32
2.3 正则语言与FSA 33
2.4 小结 34
2.5 文献和历史说明 35
第3章 形态学与有限状态转录机 36
3.1 英语形态学概观 37
3.1.1 屈折形态学 38
3.1.2 派生形态学 40
3.2 有限状态形态剖析 41
3.2.1 词表和形态顺序规则 41
3.2.2 用有限状态转录机进行形态剖析 44
3.2.3 正词法规则和有限状态转录机 48
3.3 把FST词表与规则相结合 50
3.4 与词表无关的FST:PORTER词干处理器 52
3.5 人是怎样进行形态处理的 53
3.6 小结 54
3.7 文献和历史说明 54
第4章 计算音系学与文本-语音转换 56
4.1 言语语音与语音标音法 57
4.1.1 发音器官 58
4.1.2 辅音:发音部位 60
4.1.3 辅音:发音方法 61
4.1.4 元音 62
4.1.5 音节 63
4.2 音位和音位规则 64
4.3 音位规则和转录机 65
4.4 计算音系学中的一些高级问题 68
4.4.1 元音和谐 68
4.4.2 模板式形态学 70
4.4.3 优选理论 70
4.5 音位规则的机器学习 74
4.6 TTS中从文本映射到语音 75
4.6.1 发音词典 75
4.6.2 词典之外的查找:文本分析 77
4.6.3 基于有限状态转录机(FST)的发音词典 79
4.7.1 韵律的音系学性质 82
4.7 文本-语音转换中的韵律 82
4.7.2 韵律的语音和声学性质 83
4.7.3 语音合成中的韵律 83
4.8 人处理音位和形态的过程 84
4.9 小结 85
4.10 文献和历史说明 85
第5章 发音与拼写的概率模型 87
5.1 关于拼写错误 88
5.2 拼写错误模式 89
5.3 非词错误的检查 90
5.4 概率模型 90
5.5 把贝叶斯方法应用于拼写 92
5.6 最小编辑距离 95
5.7 英语的发音变异 97
5.8 发音问题研究中的贝叶斯方法 101
5.8.1 发音变异的决策树模型 104
5.9 加权自动机 105
5.9.1 从加权自动机计算似然度:向前算法 106
5.9.2 解码:Viterbi算法 109
5.9.3 加权自动机和切分 112
5.9.4 用切分来进行词表的自动归纳 113
5.10 人类发音研究 114
5.11 小结 116
5.12 文献和历史说明 116
第6章 N元语法 118
6.1 语料库中单词数目的计算 119
6.2 简单的(非平滑的)N元语法 121
6.2.1 N元语法及其对训练语料库的敏感性 126
6.3 平滑 128
6.3.1 加1平滑 129
6.3.2 Witten-Bell打折法 131
6.3.3 Good-Turing打折法 134
6.4 回退 135
6.4.1 回退与打折相结合 136
6.5 删除插值法 137
6.6.1 上下文有关的错拼更正 138
6.6 拼写和发音的N元语法 138
6.6.2 发音模型的N元语法 139
6.7 熵 140
6.7.1 用于比较模型的交叉熵 142
6.7.2 英语的熵 143
6.8 小结 144
6.9 文献和历史说明 144
第7章 HMM与语音识别 146
7.1 语音识别的总体结构 147
7.2 隐马尔可夫模型概述 150
7.3 再谈Viterbi算法 152
7.4 先进的解码方法 157
7.4.1 A*解码算法 158
7.5 语音的声学处理 162
7.5.1 声波 162
7.5.2 怎样解释波形 163
7.5.3 声谱 163
7.5.4 特征抽取 166
7.6 声学概率的计算 166
7.7 语音识别系统的训练 169
7.8 用于语音合成的波形生成 171
7.8.1 音高和音延的修正 171
7.8.2 单元选择 172
7.9 人的语音识别 173
7.10 小结 174
7.11 文献和历史说明 175
第二部分 句法的计算机处理 177
第8章 词的分类与词类标注 178
8.1 大多数英语词的分类 179
8.2 英语的标记集 185
8.3 词类标注 186
8.4 基于规则的词类标注 187
8.5 随机词类标注 189
8.5.1 说明问题的一个例子 190
8.5.2 实际的HMM标注算法 191
8.6 基于转换的标注 193
8.6.1 怎样应用TBL规则 193
8.6.2 怎样学习TBL规则 194
8.7 其他问题 196
8.7.1 多重标记和多项词 196
8.7.2 未知词 197
8.7.3 基于类的N元语法 197
8.8 小结 198
8.9 文献和历史说明 199
第9章 英语的上下文无关语法 201
9.1 组成性 202
9.2 上下文无关规则和树 203
9.3 句子级的结构 207
9.4 名词短语 209
9.4.1 在中心名词前的成分 209
9.4.2 名词后的成分 210
9.5 并列关系 212
9.6 一致关系 212
9.7 动词短语和次范畴化 214
9.8 助动词 216
9.9 口语的句法 216
9.9.1 不流畅现象 217
9.11 有限状态语法和上下文无关语法 218
9.10 语法等价与范式 218
9.12 语法和人的语言处理 219
9.13 小结 220
9.14 文献和历史说明 221
第10章 基于上下文无关语法的剖析 223
10.1 剖析就是搜索 224
10.1.1 自顶向下剖析 225
10.1.2 自底向上剖析 225
10.1.3 自顶向下剖析与自底向上剖析的对比 227
10.2 基本的自顶向下剖析 227
10.2.1 增加自底向上过滤 230
10.3.1 左递归 232
10.3 基本的自顶向下剖析的问题 232
10.3.2 歧义 233
10.3.3 子树的重复剖析 236
10.4 Earley算法 238
10.4.1 预测 240
10.4.2 扫描 240
10.4.3 完成 240
10.4.4 示例 240
10.4.5 从线图中检索剖析树 242
10.5 有限状态剖析方法 243
10.7 文献和历史说明 246
10.6 小结 246
第11章 特征与合一 248
11.1 特征结构 249
11.2 特征结构的合一 251
11.3 语法中的特征结构 255
11.3.1 一致关系 256
11.3.2 中心语特征 258
11.3.3 次范畴化 259
11.3.4 其他词类的次范畴化 262
11.3.5 长距离依存关系 263
11.4.1 合一的数据结构 264
11.4 合一的实现 264
11.4.2 合一算法 266
11.5 带有合一约束的剖析 270
11.5.1 把合一结合到Earley剖析器中 270
11.5.2 复制的必要性 274
11.5.3 合一剖析 275
11.6 类型与继承 277
11.6.1 类型的扩充 279
11.6.2 合一的其他扩充 280
11.7 小结 280
11.8 文献和历史说明 280
第12章 词汇化剖析与概率剖析 282
12.1 概率上下文无关语法 283
12.1.1 PCFG的概率CYK剖析 286
12.1.2 PCFG概率的学习 287
12.2 PCFG的问题 288
12.3 概率词汇化的CFG 289
12.4 依存语法 293
12.4.1 范畴语法 295
12.5 人的剖析 295
12.6 小结 300
12.7 文献和历史说明 300
第13章 语言的复杂性 302
13.1 Chomsky层级 303
13.2 怎么判断一种语言不是正则的 304
13.2.1 抽吸引理 305
13.2.2 英语和其他自然语言是正则语言吗 307
13.3 自然语言是上下文无关的吗 309
13.4 计算复杂性和人的语言处理 311
13.5 小结 314
13.6 文献和历史说明 315
第三部分 语义的计算机处理 317
第14章 意义的表示法 318
14.1 意义表示的计算要求 319
14.1.2 无歧义表示 320
14.1.1 可能性验证 320
14.1.3 规范形式 321
14.1.4 推论与变元 322
14.1.5 表达能力 323
14.2 语言的意义结构 323
14.2.1 谓词论元结构 323
14.3 一阶谓词演算 324
14.3.1 FOPC基础 325
14.3.2 FOPC的语义 326
14.3.3 变量和逻辑量词 327
14.3.4 推论 329
14.4 某些与语言学相关的概念 330
14.4.1 范畴 330
14.4.2 事件 331
14.4.3 时间表示 333
14.4.4 体 336
14.4.5 信念表示 338
14.4.6 缺陷 340
14.5 有关的表示方法 341
14.6 意义的其他表示方法 341
14.6.1 作为行动的意义 341
14.7 小结 342
14.6.2 作为真值的意义 342
14.8 文献和历史说明 343
第15章 语义分析 344
15.1 句法驱动的语义分析 344
15.1.1 给上下文无关语法规则扩充语义 346
15.1.2 量词辖域和复杂项的转译 351
15.2 给英语片断附加语义分析 352
15.2.1 句子 352
15.2.2 名词短语 353
15.2.3 动词短语 355
15.2.4 介词短语 357
15.3 把语义分析结合到Earley剖析中 359
15.4 惯用语和组成性 360
15.5 鲁棒的语义分析 361
15.5.1 语义语法 361
15.5.2 信息抽取 363
15.6 小结 367
15.7 文献和历史说明 368
第16章 词汇语义学 370
16.1 词位及其涵义之间的关系 371
16.1.1 同形关系 371
16.1.2 多义关系 373
16.1.3 同义关系 375
16.1.4 上下位关系 376
16.2 WORDNET:词汇关系信息库 377
16.3 词的内在结构 380
16.3.1 题元角色 380
16.3.2 选择限制 385
16.3.3 基元分解 388
16.3.4 语义场 390
16.4 语言的创造性与词典 391
16.4.1 隐喻 391
16.4.2 换喻 392
16.4.3 隐喻和换喻的计算方法 392
16.5 小结 392
16.6 文献和历史说明 393
第17章 词义排歧与信息检索 394
17.1 基于选择限制的排歧 394
17.1.1 选择限制的局限性 395
17.2 鲁棒的词义排歧 396
17.2.1 机器学习方法 397
17.2.2 基于词典的方法 402
17.3 信息检索 403
17.3.1 向量空间模型 403
17.3.2 检索词加权 405
17.3.3 检索词的选择和创造 407
17.3.5 改进用户的查询条件 408
17.3.4 同形关系、多义关系和同义关系 408
17.4 信息检索的其他任务 409
17.5 小结 410
17.6 文献和历史说明 411
第四部分 语用的计算机处理 413
第18章 话语 414
18.1 所指判定 415
18.1.1 所指现象 417
18.1.2 同指的句法和语义约束 419
18.1.3 代词解释中的优先关系 422
18.1.4 代词判定算法 423
18.2.1 现象 430
18.2 文本的连贯 430
18.2.2 基于推理的判定算法 431
18.3 话语结构 436
18.4 所指和连贯的心理语言学研究 438
18.5 小结 441
18.6 文献和历史说明 441
第19章 对话与会话智能代理 443
19.1 什么使对话出现差别 444
19.1.1 话轮和话段 444
19.1.2 对话的共同基础 446
19.1.3 会话隐涵 447
19.2 对话行为 448
19.3 对话行为的自动解释 451
19.3.1 对话行为的计划推理解释 452
19.3.2 对话行为的基于提示的解释 456
19.3.3 要点 460
19.4 对话结构与连贯性 460
19.5 会话智能代理中的对话管理 464
19.6 小结 468
19.7 文献和历史说明 469
第20章 自然语言生成 471
20.1 语言生成导引 472
20.2 生成的体系结构 473
20.3 表层实现 474
20.3.1 系统语法 474
20.3.2 功能合一语法 477
20.3.3 要点 481
20.4 话语规划 481
20.4.1 文本说明图 481
20.4.2 修辞关系 483
20.4.3 小结 487
20.5 其他问题 487
20.5.1 微规划 487
20.5.4 语音生成 488
20.5.3 生成系统评价 488
20.5.2 词汇选择 488
20.6 小结 489
20.7 文献和历史说明 489
第21章 机器翻译 492
21.1 语言的相似性和差异性 494
21.2 转换模型 497
21.2.1 句法转换 498
21.2.2 词汇转换 499
21.3 中间语的思想:使用意义 500
21.4 直接转换 502
21.5 使用统计技术 504
21.5.2 忠实性的量化 505
21.5.1 流畅性的量化 505
21.5.3 输出的搜索 506
21.6 可用性与系统开发 506
21.7 小结 508
21.8 文献和历史说明 508
附录A 正则表达式的算符 510
附录B PORTER STEMMING算法 511
附录C 标记集C5和C7 514
附录D HMM模型的训练:向前-向后算法 519
参考文献 525
术语表 577