第1章 绪论 1
1.1基本概念 1
1.1.1语言学与语音学 1
1.1.2自然语言处理 2
1.1.3关于“理解”的标准 5
1.2自然语言处理研究的内容和面临的困难 5
1.2.1自然语言处理研究的内容 5
1.2.2自然语言处理涉及的几个层次 8
1.2.3自然语言处理面临的困难 8
1.3自然语言处理的基本方法及其发展 11
1.3.1自然语言处理的基本方法 11
1.3.2自然语言处理的发展 12
1.4自然语言处理的研究现状 15
1.5本书的内容安排 16
第2章 预备知识 18
2.1概率论基本概念 18
2.1.1概率 18
2.1.2最大似然估计 18
2.1.3条件概率 19
2.1.4贝叶斯法则 19
2.1.5随机变量 20
2.1.6二项式分布 21
2.1.7联合概率分布和条件概率分布 21
2.1.8贝叶斯决策理论 22
2.1.9期望和方差 22
2.2信息论基本概念 23
2.2.1熵 23
2.2.2联合熵和条件熵 24
2.2.3互信息 26
2.2.4相对熵 27
2.2.5交叉熵 27
2.2.6困惑度 28
2.2.7噪声信道模型 28
2.3支持向量机 30
2.3.1线性分类 30
2.3.2线性不可分 31
2.3.3构造核函数 31
第3章 形式语言与自动机 33
3.1基本概念 33
3.1.1图 33
3.1.2树 33
3.1.3字符串 34
3.2形式语言 35
3.2.1概述 35
3.2.2形式语法的定义 35
3.2.3形式语法的类型 36
3.2.4 CFG识别句子的派生树表示 38
3.3自动机理论 39
3.3.1有限自动机 39
3.3.2正则文法与自动机的关系 40
3.3.3上下文无关文法与下推自动机 41
3.3.4图灵机 43
3.3.5线性界限自动机 44
3.4自动机在自然语言处理中的应用 45
3.4.1单词拼写检查 45
3.4.2单词形态分析 48
3.4.3词性消歧 49
第4章 语料库与语言知识库 53
4.1语料库技术 53
4.1.1概述 53
4.1.2语料库语言学的发展 54
4.1.3语料库的类型 57
4.1.4汉语语料库建设中的问题 59
4.1.5典型语料库介绍 60
4.2语言知识库 67
4.2.1 WordNet 68
4.2.2 FrameNet 69
4.2.3 EDR 70
4.2.4北京大学综合型语言知识库 71
4.2.5知网 73
4.2.6概念层次网络 77
4.3语言知识库与本体论 79
第5章 语言模型 83
5.1 n元语法 83
5.2语言模型性能评价 85
5.3数据平滑 86
5.3.1问题的提出 86
5.3.2加法平滑方法 87
5.3.3古德-图灵(Good-Turing)估计法 87
5.3.4 Katz平滑方法 89
5.3.5 Jelinek-Mercer平滑方法 90
5.3.6 Witten-Bell平滑方法 92
5.3.7绝对减值法 93
5.3.8 Kneser-Ney平滑方法 93
5.3.9算法总结 95
5.4其他平滑方法 97
5.4.1 Church-Gale平滑方法 97
5.4.2贝叶斯平滑方法 97
5.4.3修正的Kneser-Ney平滑方法 98
5.5平滑方法的比较 99
5.6语言模型自适应方法 100
5.6.1基于缓存的语言模型 100
5.6.2基于混合方法的语言模型 101
5.6.3基于最大熵的语言模型 102
第6章 概率图模型 104
6.1概述 104
6.2贝叶斯网络 106
6.3马尔可夫模型 108
6.4隐马尔可夫模型 110
6.4.1求解观察序列的概率 111
6.4.2维特比算法 115
6.4.3 HMM的参数估计 116
6.5层次化的隐马尔可夫模型 119
6.6马尔可夫网络 120
6.7最大熵模型 122
6.7.1最大熵原理 122
6.7.2最大熵模型的参数训练 124
6.8最大熵马尔可夫模型 125
6.9条件随机场 127
第7章 自动分词、命名实体识别与词性标注 129
7.1汉语自动分词中的基本问题 129
7.1.1汉语分词规范问题 129
7.1.2歧义切分问题 130
7.1.3未登录词问题 132
7.2汉语分词方法 135
7.2.1 N-最短路径方法 135
7.2.2基于词的n元语法模型的分词方法 138
7.2.3由字构词的汉语分词方法 140
7.2.4基于词感知机算法的汉语分词方法 142
7.2.5基于字的生成式模型和区分式模型相结合的汉语分词方法 144
7.2.6其他分词方法 146
7.2.7分词方法比较 147
7.3命名实体识别 150
7.3.1方法概述 150
7.3.2基于CRF的命名实体识别方法 152
7.3.3基于多特征的命名实体识别方法 154
7.4维吾尔语人名识别方法研究 162
7.5词性标注 164
7.5.1概述 164
7.5.2基于统计模型的词性标注方法 165
7.5.3基于规则的词性标注方法 168
7.5.4统计方法与规则方法相结合的词性标注方法 170
7.5.5词性标注中的生词处理方法 172
7.6词性标注的一致性检查与自动校对 173
7.6.1词性标注一致性检查方法 173
7.6.2词性标注自动校对方法 175
7.7关于技术评测 177
第8章 句法分析 179
8.1句法结构分析概述 179
8.1.1基本概念 179
8.1.2语法形式化 180
8.1.3基本方法 181
8.2基于PCFG的基本分析方法 184
8.2.1 PCFG 184
8.2.2面向PCFG的内向外向算法 185
8.2.3选择句子的最佳结构 187
8.2.4 PCFG的概率参数估计 188
8.2.5分析实例 190
8.3词汇化的短语结构分析器 192
8.4非词汇化句法分析器 196
8.5其他相关研究 199
8.5.1 PCFG方法的改进 199
8.5.2数据驱动的分析方法 200
8.5.3语义信息的利用 202
8.6短语结构分析器性能评价 202
8.6.1评价指标 202
8.6.2短语结构分析器性能比较 204
8.7层次化汉语长句结构分析 207
8.7.1标点符号在句法分析中的作用 208
8.7.2层次化汉语长句结构分析的思路 209
8.7.3汉语标点符号的分类 210
8.7.4句法规则提取方法 211
8.7.5HP分析算法 211
8.8浅层句法分析 214
8.8.1概述 214
8.8.2基本名词短语的定义 215
8.8.3基于SVM的base NP识别方法 216
8.8.4基于WINNOW的base NP识别方法 217
8.8.5基于CRF的base NP识别方法 219
8.9依存语法理论简介 220
8.10依存句法分析 223
8.10.1概述 223
8.10.2生成式依存分析方法 224
8.10.3判别式依存分析方法 226
8.10.4确定性依存分析方法 228
8.10.5其他相关研究 231
8.10.6基于序列标注的分层式依存分析方法 233
8.11依存分析器性能评价 235
8.11.1评价指标 235
8.11.2依存分析性能比较 236
8.12短语结构与依存结构之间的关系 240
第9章 语义分析 244
9.1词义消歧概述 244
9.2有监督的词义消歧方法 245
9.2.1基于互信息的消歧方法 245
9.2.2基于贝叶斯分类器的消歧方法 247
9.2.3基于最大熵的词义消歧方法 248
9.3基于词典的词义消歧方法 249
9.3.1基于词典语义定义的消歧方法 249
9.3.2基于义类辞典的消歧方法 250
9.3.3基于双语词典的消歧方法 250
9.3.4 Yarowsky算法及其相关研究 251
9.4无监督的词义消歧方法 252
9.5词义消歧系统评价 254
9.6语义角色标注概述 255
9.7语义角色标注基本方法 257
9.7.1自动语义角色标注的基本流程 257
9.7.2基于短语结构树的语义角色标注方法 257
9.7.3基于依存关系树的语义角色标注方法 259
9.7.4基于语块的语义角色标注方法 261
9.7.5语义角色标注的融合方法 262
9.8语义角色标注的领域适应性问题 264
9.9双语联合语义角色标注方法 267
9.9.1基本思路 267
9.9.2系统实现 269
9.9.3实验 272
第10章 篇章分析 276
10.1基本概念 276
10.2基本理论 277
10.2.1言语行为理论 278
10.2.2中心理论 279
10.2.3修辞结构理论 281
10.2.4脉络理论 283
10.2.5篇章表示理论 284
10.3篇章衔接性研究 286
10.3.1基于指代消解的衔接性相关研究 286
10.3.2基于词汇衔接的衔接性相关研究 289
10.4篇章连贯性研究 290
10.4.1基于信息性的连贯性相关研究 290
10.4.1基于意图性的连贯性相关研究 292
10.5篇章标注语料库 293
10.6关于汉语篇章分析 294
第11章 统计机器翻译 297
11.1机器翻译概述 298
11.1.1机器翻译的发展 298
11.1.2机器翻译方法 298
11.1.3机器翻译研究现状 300
11.2基于噪声信道模型的统计机器翻译原理 301
11.3 IBM的5个翻译模型 304
11.3.1模型1 304
11.3.2模型2 307
11.3.3模型3 308
11.3.4模型4 313
11.3.5模型5 315
11.4基于HMM的词对位模型 317
11.5基于短语的翻译模型 319
11.5.1模型演变 319
11.5.2短语对抽取方法 321
11.6基于柱搜索的解码算法 325
11.7基于最大熵的翻译框架 329
11.7.1模型介绍 329
11.7.2对位模型与最大近似 331
11.7.3对位模板 332
11.7.4特征函数 332
11.7.5参数训练 333
11.8基于层次短语的翻译模型 333
11.8.1概述 333
11.8.2模型描述 335
11.8.3参数训练 336
11.8.4解码方法 337
11.9树翻译模型 339
11.9.1树到树的翻译模型 339
11.9.2树到串的翻译模型 342
11.9.3串到树的翻译模型 345
11.10树模型的相关改进 349
11.10.1源语言句法增强的串到树翻译模型 349
11.10.2基于无监督树结构的翻译模型 351
11.11句法模型解码算法 354
11.12基于谓词论元结构转换的翻译模型 355
11.13各种翻译模型的分析 358
11.14集外词翻译 361
11.14.1数字和时间表示的识别与翻译 362
11.14.2命名实体翻译 363
11.14.3普通集外词的翻译 370
11.15统计翻译系统实现 371
11.16系统融合 374
11.16.1句子级系统融合 374
11.16.2短语级系统融合 375
11.16.3词汇级系统融合 376
11.16.4构建混淆网络的词对齐方法 379
11.17译文质量评估方法 383
11.17.1概述 383
11.17.2技术指标 384
11.17.3相关评测 392
11.17.4有关自动评测方法的评测 396
第12章 语音翻译 399
12.1语音翻译的基本原理和特点 399
12.1.1语音翻译的基本原理 399
12.1.2语音翻译的特点 400
12.2语音翻译的研究现状 401
12.3 C-STAR、A-STAR和U-STAR 404
12.3.1 C-STAR概况 404
12.3.2 A-STAR和U-STAR 405
12.4系统与项目介绍 406
12.5口语翻译方法 411
12.5.1基于对话行为分析的口语翻译方法 412
12.5.2基于句子类型的口语翻译方法 413
第13章 文本分类与情感分类 416
13.1文本分类概述 416
13.2文本表示 417
13.3文本特征选择方法 419
13.3.1基于文档频率的特征提取法 419
13.3.2信息增益法 420
13.3.3X2统计量 420
13.3.4互信息法 421
13.4特征权重计算方法 422
13.5分类器设计 424
13.5.1朴素贝叶斯分类器 424
13.5.2基于支持向量机的分类器 425
13.5.3 k-最近邻法 426
13.5.4基于神经网络的分类器 426
13.5.5线性最小平方拟合法 426
13.5.6决策树分类器 427
13.5.7模糊分类器 427
13.5.8 Rocchio分类器 427
13.5.9基于投票的分类方法 428
13.6文本分类性能评测 428
13.6.1评测指标 428
13.6.2相关评测 430
13.7情感分类 431
第14章 信息检索与问答系统 434
14.1信息检索概要 434
14.1.1背景概述 434
14.1.2基本方法和模型 435
14.1.3倒排索引 439
14.1.4文档排序 440
14.2隐含语义标引模型 440
14.2.1隐含语义标引模型 440
14.2.2概率隐含语义标引模型 441
14.2.3弱指导的统计隐含语义标引模型 443
14.3检索系统评测 445
14.3.1检索系统评测指标 445
14.3.2信息检索评测活动 446
14.4问答系统 448
14.4.1概述 448
14.4.2系统构成 450
14.4.3基本方法 451
14.4.4 QA系统评测 453
第15章 自动文摘与信息抽取 455
15.1自动文摘技术概要 455
15.2多文档摘要 456
15.2.1问题与方法 456
15.2.2文摘评测 458
15.3信息抽取 460
15.3.1概述 460
15.3.2传统的信息抽取技术 461
15.3.3开放式信息抽取 463
15.4情感信息抽取 467
15.5情感分析技术评测 468
第16章 口语信息处理与人机对话系统 471
16.1汉语口语现象分析 471
16.1.1概述 471
16.1.2口语语言现象分析 472
16.1.3冗余现象分析 474
16.1.4重复现象分析 475
16.2口语句子情感信息分析 476
16.2.1情感词汇分类 476
16.2.2口语句子情感信息分析 477
16.3面向中间表示的口语解析方法 479
16.3.1概述 479
16.3.2中间表示格式 480
16.3.3基于规则和HMM的统计解析方法 481
16.3.4基于语义决策树的口语解析方法 486
16.4基于MDP的对话行为识别 487
16.5基于中间表示的口语生成方法 488
16.5.1基本思路 488
16.5.2微观规划器 489
16.5.3表层生成器 490
16.6人机对话系统 491
16.6.1系统组成 491
16.6.2相关研究 492
参考文献 495
自然语言处理及其相关领域的国际会议 551
名词术语索引 553