《语言资源视角下的语料库建设与应用研究 汉、英》PDF下载

  • 购买积分:11 如何计算积分?
  • 作  者:熊文新著
  • 出 版 社:北京:外语教学与研究出版社
  • 出版年份:2015
  • ISBN:9787513559287
  • 页数:294 页
图书介绍:《语言资源视角下的语料库建设与应用研究》,语料库被视作语言研究和应用的重要基础资源。语料库研究已成为语言研究的显学。本书是第一本基于语言工程视角指导语料库建设与应用的著作。全书对语料库的发展和现状进行梳理,从语言工程角度提出了语料库资源建设与应用的新思路。针对互联网时代的语料库建设加工,尤其是双语语料库的获取、对齐、标注及检索问题,书中对其中的新理念、技术与方法进行了详细描述。此外,对语言学者如何利用语料库,从中挖掘语言使用规律,本书也做了详尽例释。本书既有对语料库研究新视角的理论思考,又融汇了作者多年语料库建设开发的实践经验,可供语料库与语言研究者、语言技术爱好者阅读。

第一章 绪论 1

第一节 语料库研究现状 2

1 语料库主题的研究发展 3

2 作为语言学热门研究的语料库 5

第二节 语料库与语料库语言学 8

1 作为术语的语料库语言学 8

2 语料库语言学的内涵 10

3 语料库语言学的外延 12

4 语料库及其反思 14

4.1 语料库的电子属性 15

4.2 文本的真实性 16

4.3 语料的量 17

4.4 语料文本的选择 18

4.5 计算机工具的利用 20

4.6 统计作用的体现 21

第三节 语料库的应用研究 21

1 语料库之于语言本体研究 23

2 语料库之于语言教育 26

3 语料库之于自然语言处理 28

第四节 本章小结 30

第二章 作为语言资源的语料库 33

第一节 语言资源 34

1 语言资源中的语言数据 35

2 语言资源与标注 37

第二节 静态语言学资源 38

1 基于词项的语言学资源 39

2 基于文本的语言学资源 42

2.1 大型平衡语料库 43

2.2 学习者语料库 49

2.3 多语言语料库 53

2.4 语料库的深度加工 56

第三节 动态语言学资源 66

1 语言加工标注 66

1.1 分词和词性标注 67

1.2 句法分析 70

1.3 双语对齐 73

2 语言检索分析 76

2.1 通用检索工具 76

2.2 语料库专用检索工具 78

第四节 本章小结 84

第三章 Web语料库建设 86

第一节 Web与语料库的关系 87

1 Web作为语料库 88

2 网络语言及其分类 89

3 Web上的多语语言资源 92

第二节 网络文本的遴选与获取 93

1 网络文本的语言学理据 93

2 网络文本的获取途径 95

3 门户网站和机构网站 97

4 搜索引擎的利用 100

4.1 高级检索 102

4.2 命令行检索 104

5 网络语料的获取 105

5.1 页面地址的构成规律 105

5.2 导航页文本链接目录的获取 106

5.3 网页文件的下载 108

6 网络文本的预处理 108

6.1 页面净化 109

6.2 内码识别 110

6.3 文件格式转换 112

6.4 文本规范预处理 114

第三节 双语语料的对齐与标注 117

1 双语文本的句对齐 117

2 再对齐的处理策略 124

2.1 Champollion Aligner初对齐的效果 124

2.2 处理文本对象的受限语言策略 126

2.3 错误修正中的决策树策略 127

3 语言学知识指导下的再对齐处理 128

3.1 英汉1:2对齐错误修正规则 129

3.2 语言学规则处理的校验 136

第四节 讨论 137

1 人机结合的处理策略 138

2 简化的资源处理 138

3 领域可迁移性 139

第五节 本章小结 140

第四章 语料库的建库与检索 143

第一节 语料库系统架构 143

1 平行语料库的类别 144

2 平台系统架构 147

2.1 语料的组织形式 148

2.2 系统总体架构 154

第二节 语料资源建设 156

1 标注的意义 156

2 文本属性标注 157

2.1 文本属性标注 158

2.2 文本内部标注 159

3 语言学标注 161

3.1 分词及词性标注 162

3.2 句法标注 163

4 语料校对 165

4.1 语料对齐的校对 166

4.2 前期语料的再校对 168

4.3 句子标注加工及校对 170

5 语料数据库平台建设 172

第三节 语料库检索平台 175

1 文献检索 175

2 信息检索 176

3 语料检索 178

3.1 语料检索类型 180

3.2 语料检索工具 186

4 检索系统设计 189

4.1 检索问题 189

4.2 Web和桌面应用程序设计 192

4.3 汉英对应语料库检索的应用 194

第四节 本章小结 199

第五章 语言资源的应用 200

第一节 语料库工具的开发应用 201

1 模式计算PatCount 201

1.1 系统实现及其功能 202

1.2 与词汇分析工具Range的比较 204

2 类联结Colligator 205

3 改进的搭配定量研究 207

3.1 搭配的定量分析 208

3.2 依存关系语料库 213

3.3 基于依存关系信息的搭配强度检索 219

4 小结 221

第二节 借助汉语的以意索词 222

1 句对齐加工的英汉平行语料库 223

2 检索项的同义扩展及对应词表引入 224

2.1 从意义到形式的检索 224

2.2 词汇语义知识库的应用 225

2.3 英汉对应词表的应用 227

3 浅层语法分析 228

3.1 语料库检索的缺陷 228

3.2 浅层语法分析 229

4 一个实验 230

5 小结 232

第三节 英语特异组合及其应用 233

1 相关研究及基本设想 233

2 资源及工具准备 235

2.1 对应词表 235

2.2 词语语义知识库 235

2.3 各类单语语料库及平行语料库 235

2.4 浅层语法分析工具 236

3 英语特异组合的发现方法 237

3.1 对译词提取 238

3.2 动宾结构重组 238

3.3 特异组合发现 239

3.4 使用示例 240

4 英语特异组合外语教学上的验证 243

4.1 英语学习的搭配及判定 244

4.2 特异组合学习难度测试 245

4.3 结果与讨论 246

5 小结 250

第五节 本章小结 251

第六章 结语 254

第一节 语料库建设及应用的反思 255

1 语料库研究应注意的问题 255

1.1 外部知识源的处理 255

1.2 伪正确与伪错误 257

2 语料库的工程属性 259

第二节 语言学资源发展的趋势 263

1 大数据的结合 264

2 标注加工的细化 265

3 语言学资源的深度融合 267

4 检索的可视化 268

第三节 结语 270

1 希望解决的问题 270

1.1 为何建 271

1.2 如何建 271

1.3 如何用 272

2 没有涉及的话题 273

后记 275

参考文献 278