《大规模真实文本汉语字母词语考察研究》PDF下载

  • 购买积分:11 如何计算积分?
  • 作  者:郑泽芝著
  • 出 版 社:厦门:厦门大学出版社
  • 出版年份:2010
  • ISBN:9787561534892
  • 页数:295 页
图书介绍:本书采用语料库技术与内省相结合、定量和定性相结合的研究方法,以大规模真实文本为研究基础,历时5年,跟踪考察了近两亿真实文本语料。界定了文字字母;对字母词语所用字符进行了考察和归纳,界定了字母词语;在共时截面上对字母词语在主流报纸媒体的使用状况进行了全面客观的描述和分析;对字母词语的主题领域分布、用法分布状况进行了量化分析研究;从不同角度对字母词语分类、构成成分进行了研究;从历时发展的角度对字母词语演化状况进行了跟踪研究;从语言信息处理的角度对字母词语的统计特征和字母词语的自动识别进行了研究;对通用字母词语的量化提取进行了探索;对字母词语将给汉语文字系统带来怎样的影响进行了探索等等。客观真实地描写和分析了字母词语的各种情况,取得了大量第一手的资料。本书共分15章。

第一章 绪论 1

1 字母词语的界定 2

2 字母词语与真实文本 7

3 本书的结构 9

第二章 主流报纸媒体字母词语的使用状况 11

1 语料的选择 11

2 文本中使用的非汉字符 13

3 外文字母在汉语文本中的使用情况 14

4 媒体字母词语的量化概况 17

5 各报纸媒体字母词语概况 18

5.1 《人民日报》字母词语概况 18

5.2 《北京青年报》字母词语概况 19

5.3 《羊城晚报》字母词语概况 30

6 媒体字母词语的一次性使用情况 32

7 不同性质媒体中字母词语的使用情况 33

8 媒体共有字母词语情况 36

9 小结 37

第三章 字母词语中的标点 39

1 字母词语中的标点符号 40

2 字母词语中标点符号出现情况及问题 40

2.1 字母词语中标点的出现情况 40

2.2 与标点相关问题的处理 46

3 小结 47

第四章 字母词语中的数字 48

1 数字在字母前的情形 49

2 数字在字母后的情形 50

3 含数字字母词语之管见 51

第五章 单字母、多字母、光杆字母词语与字母词语并列结构 53

1 单字母字母词语 53

2 多字母字母词语考察 56

3 光杆字母词语与外语原文缩略语 60

3.1 光杆字母词语使用状况 60

3.2 字母词语原文缩略和汉语拼音成词问题 63

4 字母词语的并列结构 65

第六章 双语对释字母词语 69

1 双语对释字母词语在文本中的使用情况概述 69

2 对释汉字串的分布考察 76

3 双语对释字母词语语形历时演化分析 76

4 双语对释字母词语使用方式演化 78

4.1 共有双语对释字母词语Ⅰ型、Ⅱ型分布 78

4.2 双语对释全称简称形式的演化 79

4.3 字母词语中的新词语 80

5 小结 81

第七章 字母词语领域分布特点 83

1 媒体主题领域聚类 83

2 字母词语在各主题领域的量化分布规律 84

2.1 一般字母词语领域分布情况 84

2.2 双语对释字母词语领域分布情况 87

3 领域共有字母词语的情况分析 90

4 各主题域独有字母词语情况分析 92

5 小结 93

第八章 字母词语有多少种用法 94

1 字母词语的用法分类 94

2 字母词语的用法分布情况 97

3 字母词语领域和用法交叉分布情况 100

4 小结 103

第九章 字母词语的演化态势 104

1 字母词语的使用数量的历时演化 104

2 字母词语一次性使用的历时变化 105

3 字母词语变化程度及变化趋势 106

4 一般字母词语的演化情况分析 108

4.1 数量变化 108

4.2 字母词语搭配汉字的情况 109

4.3 共有一般词语的分类考察 111

5 字母词语稳定性 112

第十章 字母词语的使用与规范 114

1 字母词语的层次划分 114

1.1 字母词语三圈划分 114

1.2 外语原词、计算机相关词语在文本中的使用情况 116

2 字母词语来源分析 118

3 外文字母使用例析 121

4 字母词语不规范情况分类 124

5 字母词语的词性问题 125

6 字母词语的归化 125

7 关于字母词语的几点建议 126

第十一章 字母词语对汉语文字系统的影响 128

1 语言与文字 128

2 从外来语到字母词语 131

2.1 传统外来语的影响 131

2.2 字母词语与汉语言系统 134

3 汉语文字系统 137

4 汉字系统可否发生变化 140

5 小结 142

第十二章 通用字母词语提取研究 144

1 通用词语的各种量化属性 144

2 字母词语量化属性观察分析 145

3 通用字母词语提取算法 146

3.1 绝对指标提取方法 146

3.2 通用度方法 149

3.3 散布均匀度方法 154

3.4 小结 155

4 低使用率词语的处理 156

5 通用字母词语的一些特性 157

6 小结 158

第十三章 字母词语的自动识别 159

1 字母词语与术语、专名的关系 159

1.1 字母词语自身的特点 160

1.2 字母词语与术语的关系 160

1.3 字母词语与专有名词的关系 161

2 字母词语识别的难点分析与字母词语统计特征 162

2.1 字母词语和标点符号 162

2.2 字母串与汉字串搭配的分合问题 163

2.3 字母词语的一次性出现与语形不规范问题 164

2.4 字母词语边界歧义 165

2.5 字母串的合法性与字母词语之间的分割问题 165

2.6 字母词语的统计特征 166

3 字母词语的自动识别 168

3.1 规则的获取 168

3.2 字母词语数据稀疏问题的处理策略 170

3.3 搭配概率矩阵的获取 171

3.4 自动标注模型 174

3.5 实验结果 178

4 小结 180

第十四章 字母词语的社会接受程度考察 181

1 教育程度和字母词语的接受程度 181

2 不同人群对字母词语的接受程度调查 184

3 小结 186

第十五章 结束语 187

1 本书的主要结论和观点 187

1.1 主流报纸媒体字母词语共时状况考察 187

1.2 字母词语的专项考察 188

1.3 字母词语的主题分布、用法分布情况考察 189

1.4 字母词语的历时演化 190

1.5 关于通用字母词语的提取 190

1.6 关于字母词语的自动识别 191

1.7 对字母词语社会接受情况的调查 191

2 存在的问题 192

3 几点思考 194

附录1 《人民日报》历时5年一般字母词语 196

附录2 《人民日报》双语对释字母词语 199

附录3 2002年《人民日报》《北京青年报》《羊城晚报》共有字母词语 225

附录4 《北京青年报》双语对释字母词语(2002) 232

附录5 《羊城晚报》双语对释字母词语(2002) 259

附录6 字母词语研究文献索引 270

参考文献 284

后记 292