第一章 绪论 1
第一节 语料库研究现状 2
1 语料库主题的研究发展 3
2 作为语言学热门研究的语料库 5
第二节 语料库与语料库语言学 8
1 作为术语的语料库语言学 8
2 语料库语言学的内涵 10
3 语料库语言学的外延 12
4 语料库及其反思 14
4.1 语料库的电子属性 15
4.2 文本的真实性 16
4.3 语料的量 17
4.4 语料文本的选择 18
4.5 计算机工具的利用 20
4.6 统计作用的体现 21
第三节 语料库的应用研究 21
1 语料库之于语言本体研究 23
2 语料库之于语言教育 26
3 语料库之于自然语言处理 28
第四节 本章小结 30
第二章 作为语言资源的语料库 33
第一节 语言资源 34
1 语言资源中的语言数据 35
2 语言资源与标注 37
第二节 静态语言学资源 38
1 基于词项的语言学资源 39
2 基于文本的语言学资源 42
2.1 大型平衡语料库 43
2.2 学习者语料库 49
2.3 多语言语料库 53
2.4 语料库的深度加工 56
第三节 动态语言学资源 66
1 语言加工标注 66
1.1 分词和词性标注 67
1.2 句法分析 70
1.3 双语对齐 73
2 语言检索分析 76
2.1 通用检索工具 76
2.2 语料库专用检索工具 78
第四节 本章小结 84
第三章 Web语料库建设 86
第一节 Web与语料库的关系 87
1 Web作为语料库 88
2 网络语言及其分类 89
3 Web上的多语语言资源 92
第二节 网络文本的遴选与获取 93
1 网络文本的语言学理据 93
2 网络文本的获取途径 95
3 门户网站和机构网站 97
4 搜索引擎的利用 100
4.1 高级检索 102
4.2 命令行检索 104
5 网络语料的获取 105
5.1 页面地址的构成规律 105
5.2 导航页文本链接目录的获取 106
5.3 网页文件的下载 108
6 网络文本的预处理 108
6.1 页面净化 109
6.2 内码识别 110
6.3 文件格式转换 112
6.4 文本规范预处理 114
第三节 双语语料的对齐与标注 117
1 双语文本的句对齐 117
2 再对齐的处理策略 124
2.1 Champollion Aligner初对齐的效果 124
2.2 处理文本对象的受限语言策略 126
2.3 错误修正中的决策树策略 127
3 语言学知识指导下的再对齐处理 128
3.1 英汉1:2对齐错误修正规则 129
3.2 语言学规则处理的校验 136
第四节 讨论 137
1 人机结合的处理策略 138
2 简化的资源处理 138
3 领域可迁移性 139
第五节 本章小结 140
第四章 语料库的建库与检索 143
第一节 语料库系统架构 143
1 平行语料库的类别 144
2 平台系统架构 147
2.1 语料的组织形式 148
2.2 系统总体架构 154
第二节 语料资源建设 156
1 标注的意义 156
2 文本属性标注 157
2.1 文本属性标注 158
2.2 文本内部标注 159
3 语言学标注 161
3.1 分词及词性标注 162
3.2 句法标注 163
4 语料校对 165
4.1 语料对齐的校对 166
4.2 前期语料的再校对 168
4.3 句子标注加工及校对 170
5 语料数据库平台建设 172
第三节 语料库检索平台 175
1 文献检索 175
2 信息检索 176
3 语料检索 178
3.1 语料检索类型 180
3.2 语料检索工具 186
4 检索系统设计 189
4.1 检索问题 189
4.2 Web和桌面应用程序设计 192
4.3 汉英对应语料库检索的应用 194
第四节 本章小结 199
第五章 语言资源的应用 200
第一节 语料库工具的开发应用 201
1 模式计算PatCount 201
1.1 系统实现及其功能 202
1.2 与词汇分析工具Range的比较 204
2 类联结Colligator 205
3 改进的搭配定量研究 207
3.1 搭配的定量分析 208
3.2 依存关系语料库 213
3.3 基于依存关系信息的搭配强度检索 219
4 小结 221
第二节 借助汉语的以意索词 222
1 句对齐加工的英汉平行语料库 223
2 检索项的同义扩展及对应词表引入 224
2.1 从意义到形式的检索 224
2.2 词汇语义知识库的应用 225
2.3 英汉对应词表的应用 227
3 浅层语法分析 228
3.1 语料库检索的缺陷 228
3.2 浅层语法分析 229
4 一个实验 230
5 小结 232
第三节 英语特异组合及其应用 233
1 相关研究及基本设想 233
2 资源及工具准备 235
2.1 对应词表 235
2.2 词语语义知识库 235
2.3 各类单语语料库及平行语料库 235
2.4 浅层语法分析工具 236
3 英语特异组合的发现方法 237
3.1 对译词提取 238
3.2 动宾结构重组 238
3.3 特异组合发现 239
3.4 使用示例 240
4 英语特异组合外语教学上的验证 243
4.1 英语学习的搭配及判定 244
4.2 特异组合学习难度测试 245
4.3 结果与讨论 246
5 小结 250
第五节 本章小结 251
第六章 结语 254
第一节 语料库建设及应用的反思 255
1 语料库研究应注意的问题 255
1.1 外部知识源的处理 255
1.2 伪正确与伪错误 257
2 语料库的工程属性 259
第二节 语言学资源发展的趋势 263
1 大数据的结合 264
2 标注加工的细化 265
3 语言学资源的深度融合 267
4 检索的可视化 268
第三节 结语 270
1 希望解决的问题 270
1.1 为何建 271
1.2 如何建 271
1.3 如何用 272
2 没有涉及的话题 273
后记 275
参考文献 278