第1章 绪论 1
1.1 什么是自然语言处理 1
1.2 自然语言处理的研究内容 2
1.3 自然语言处理的应用领域 4
1.4 自然语言处理中用到的知识 6
1.5 自然语言处理面临的困难 8
1.5.1 歧义现象的处理 8
1.5.2 未知语言现象的处理 9
1.6 自然语言处理的基本方法及其发展 10
1.7 学科现状 11
1.8 语言、思维和理解 11
1.9 本书结构 13
本章小结 13
思考练习 13
第2章 语料库与词汇知识库 14
2.1 语料库 14
2.1.1 基本概念 14
2.1.2 语料库类型 16
2.1.3 典型语料库介绍 18
2.1.4 语料处理的基本问题 20
2.2 词汇知识库 21
2.2.1 WordNet 21
2.2.2 知网 27
本章小结 31
思考练习 32
第3章 n元语法模型 33
3.1 n元语法的基本概念 34
3.2 数据平滑技术 36
3.2.1 Laplace法则 36
3.2.2 Good-Turing估计 37
3.2.3 绝对折扣和线性折扣 38
3.2.4 Witten-Bell平滑算法 39
3.2.5 扣留估计 40
3.2.6 交叉校验 41
3.2.7 删除插值法 42
3.2.8 Katz回退算法 44
3.3 开发和测试模型的数据集 45
3.4 基于词类的n-gram模型 46
本章小结 47
思考练习 48
第4章 隐马尔科夫模型 49
4.1 马尔科夫模型 49
4.2 隐马尔科夫模型 51
4.3 HMM的三个基本问题 52
4.3.1 求解观察值序列的概率 52
4.3.2 确定最优状态序列 58
4.3.3 HMM的参数估计 60
本章小结 66
思考练习 66
第5章 常用机器学习方法简介 67
5.1 决策树 68
5.2 贝叶斯分类器 71
5.3 支持向量机 73
5.4 最大熵模型 74
5.5 感知器 76
5.6 Boosting 78
本章小结 79
思考练习 80
第6章 字符编码与字频统计 81
6.1 西文字符编码 81
6.2 中文字符编码 82
6.2.1 国标码 82
6.2.2 大五码 84
6.2.3 Unicode与ISO/IEC 10646 85
6.2.4 国标扩展码 88
6.2.5 GB 18030 89
6.3 字符编码知识的作用 90
6.4 字频统计 90
6.4.1 字频统计的应用 91
6.4.2 单字字频统计 92
6.4.3 双字字频统计 93
本章小结 94
思考练习 94
第7章 词法分析 95
7.1 汉语自动分词及其基本问题 95
7.1.1 分词规范与词表 96
7.1.2 切分歧义问题 97
7.1.3 未登录词识别问题 98
7.2 基本分词方法 99
7.2.1 最大匹配法 99
7.2.2 最少分词法 101
7.2.3 最大概率法 102
7.2.4 与词性标注相结合的分词方法 104
7.2.5 基于互现信息的分词方法 105
7.2.6 基于字分类的分词方法 105
7.2.7 基于实例的汉语分词方法 106
7.3 中文姓名识别 106
7.3.1 基于规则的方法 107
7.3.2 基于统计的方法 107
7.4 汉语自动分词系统的评价 109
7.5 英语形态还原 109
7.6 词性标注 112
7.6.1 词性标记集 112
7.6.2 基于规则的词性标注方法 115
7.6.3 基于统计的词性标注方法 118
本章小结 119
思考练习 119
第8章 句法分析 120
8.1 文法的表示 121
8.2 自顶向下的句法分析 121
8.3 自底向上的句法分析 123
8.3.1 移近-归约算法 124
8.3.2 欧雷分析法 125
8.3.3 线图分析法 129
8.3.4 CYK分析法 133
8.4 概率上下文无关文法 136
8.5 浅层句法分析 139
8.5.1 问题的提出 139
8.5.2 基于规则的方法 140
8.5.3 基于统计的方法 143
8.6 句法分析系统评测 145
本章小结 146
思考练习 146
第9章 语义分析 147
9.1 词义消歧 148
9.1.1 基于规则的词义消歧 148
9.1.2 基于统计的词义消歧 149
9.1.3 基于实例的词义消歧 151
9.1.4 基于词典的词义消歧 151
9.2 语义角色标注 154
9.2.1 格语法 154
9.2.2 基于统计机器学习技术的语义角色标注 156
9.3 深层语义推理 157
9.3.1 命题逻辑和谓词逻辑 158
9.3.2 语义网络 159
9.3.3 概念依存理论 162
本章小结 162
思考练习 162
参考文献 163