第1章 自动分析中的统计方法 5
1.1 概率 5
1.2 语言统计模型 8
1.3 模型参数训练 11
1.4 互信息 12
第2章 建立应用程序 16
2.1 VisualC++简介 16
2.2 创建项目 17
2.3 增加一个菜单 21
2.4 使用对话框 23
2.5 读取简单数据的对话框 31
第3章 文件处理 36
3.1 文本文件处理 36
3.2 二进制文件处理 39
3.3 成批文件处理 41
第4章 字符编码与字频统计 46
4.1 西文字符编码 46
4.2 中文字符编码 46
4.3 字符编码知识的作用 49
4.4 字频统计的意义 50
4.5 单字频率统计 51
4.6 双字字频统计 52
4.7 字频数据浏览 59
第5章 字符串分析 62
5.1 字符串函数 62
5.2 根据词界标记取词 64
5.3 在字符串中查找单个汉字 65
5.4 重叠式分析 66
5.5 根据标点断句 67
5.6 文本文件的断句 69
第6章 建立词库 71
6.1 词库结构 71
6.2 在Access中建立词库 72
6.3 用DAO访问Access数据库 75
6.4 静态捆绑 78
6.5 动态捆绑 81
附录:用DAO创建词库、表及关系 87
第7章 自动分词 90
7.1 分词规范与词表 90
7.2 自动分词方法 91
7.3 最大匹配法 92
7.4 切分歧义与逆向扫描 95
7.5 最大概率法 97
7.6 最佳路径的搜索 98
第8章 中文姓名识别 104
8.1 基于规则的识别方法 104
8.2 基于统计的识别方法 105
8.3 中文姓名的概率 106
8.4 候选姓名的筛选 110
第9章 字词检索 114
9.1 字词检索方法 114
9.2 数据结构及存储 115
9.3 界面设计 117
9.4 语料库操作 120
9.5 检索字词 123
第10章 词性标注 127
10.1 词性标注的统计模型 127
10.2 从训练语料中获取模型参数 129
10.3 词性消歧 134
10.4 词性标注工具 138
第11章 句法分析 141
11.1 语法类型 142
11.2 句法规则 143
11.3 自顶向下的句法分析 144
11.4 自底向上的句法分析 146
11.5 自底向上的句法分析器 148
11.6 歧义结构的分析 155
第12章 概率语法 157
12.1 规则的概率和语句的概率 157
12.2 内部概率 159
12.3 外部概率 161
12.4 规则使用的期望次数 162
12.5 概率语法分析器 164
参考文献 177