第一部分 基础知识 1
第1章 绪论 2
1.1 理性主义者和经验主义者的方法 2
1.2 科学内容 4
1.3 语言中的歧义问题是自然语言难以处理的原因 9
1.4 第一手资料 11
1.5 深入阅读 21
1.6 习题 22
第2章 数学基础 23
2.1 概率论基础 23
2.2 信息论基础 35
2.3 深入阅读 47
2.4 习题 47
第3章 语言学基础 50
3.1 词性和词法 50
3.2 短语结构 57
3.3 语义和语用 68
3.4 其他研究领域 69
3.5 深入阅读 70
3.6 习题 70
第4章 基于语料库的工作 72
4.1 基础知识 72
4.2 文本 75
4.3 数据标注 84
4.4 深入阅读 89
4.5 习题 90
第二部分 词法 93
第5章 搭配 94
5.1 频率 95
5.2 均值和方差 98
5.3 假设检验 101
5.4 互信息 111
5.5 搭配的概念 114
5.6 深入阅读 116
5.7 习题 117
第6章 统计推理:稀疏数据集上的n元语法模型 120
6.1 Bins:构造等价类 120
6.2 统计估计 122
6.3 组合估计法 136
6.4 结论 140
6.5 深入阅读 141
6.6 习题 141
第7章 语义消歧 143
7.1 预备知识 144
7.2 有监督消歧 146
7.3 基于词典的消歧 151
7.4 无监督消歧 158
7.5 什么是语义 160
7.6 深入阅读 162
7.7 习题 163
第8章 词汇获取 165
8.1 评价方法 166
8.2 动词子范畴 169
8.3 附着歧义 173
8.4 选择倾向 179
8.5 语义相似性 182
8.6 统计自然语言处理中词汇获取的作用 190
8.7 深入阅读 192
8.8 习题 194
第三部分 语法 199
第9章 马尔可夫模型 200
9.1 马尔可夫模型 200
9.2 隐马尔可夫模型 202
9.3 隐马尔可夫模型的三个基本问题 205
9.4 隐马尔可夫模型:实现、性质和变形 212
9.5 深入阅读 214
9.6 习题 214
第10章 词性标注 216
10.1 标注中的信息源 217
10.2 马尔可夫模型标注器 218
10.3 隐马尔可夫标注器 225
10.4 基于转换的标注学习 228
10.5 其他模型和语言 233
10.6 标注准确率和标注器的应用 234
10.7 深入阅读 237
10.8 习题 238
第11章 概率上下文无关文法 241
11.1 概率上下文无关文法的一些特征 244
11.2 概率上下文无关文法的问题 246
11.3 词串概率的计算 248
11.4 内部-外部算法的问题 255
11.5 深入阅读 255
11.6 习题 256
第12章 概率句法分析 258
12.1 一些概念 259
12.2 一些方法 280
12.3 深入阅读 287
12.4 习题 289
第四部分 应用与技术 291
第13章 统计对齐和机器翻译 292
13.1 文本对齐 294
13.2 词对齐 303
13.3 统计机器翻译 304
13.4 深入阅读 307
13.5 习题 308
第14章 聚类 310
14.1 层级聚类 314
14.2 非层级聚类 321
14.3 深入阅读 328
14.4 习题 329
第15章 信息检索 330
15.1 信息检索的背景 330
15.2 向量空间模型 335
15.3 词条分布模型 338
15.4 潜在语义索引 344
15.5 篇章分割 350
15.6 深入阅读 352
15.7 习题 354
第16章 文本分类 355
16.1 决策树 357
16.2 最大熵建模 363
16.3 感知器 368
16.4 к最近邻分类 372
16.5 深入阅读 373
16.6 习题 374
附录A 统计表 376
参考文献 377