第一章 绪论 1
1.1 基本词汇的来源及争论 2
1.2 基于动态流通语料库的现代汉语基本词汇概念的界定 6
1.3 基本词汇的研究意义 7
1.4 基本词汇研究及相关文献综述 10
1.5 研究目标和研究内容 19
1.6 本书内容结构 22
第二章 CBVE及其自动提取方法相关理论探讨 24
2.1 现代汉语词汇的层级关系 24
2.2 动态流通语料库与词汇的稳态研究 27
2.3 从“相对时间观”看基本词汇的稳固性特征 29
2.4 关于模式识别的概念及其方法理论 31
2.5 小结 36
第三章 CBVE自动识别与提取的研究方法论 37
3.1 CBVE自动识别与提取研究的技术路线 37
3.2 研究语料的选择 38
3.3 CBVE自动提取的基本词汇先验集研究 42
3.4 词汇统计的预处理 46
3.5 小结 50
第四章 CCWE的自动识别与提取方法研究 51
4.1 CCWE通用度的定量分析方法探讨 51
4.2 词汇通用度的计算 66
4.3 CCWE的提取步骤 71
4.4 CCWE自动提取实验结果分析 76
4.5 小结 80
第五章 狭义的CBVE自动识别与提取方法研究 81
5.1 CBVE的特征向量描述 81
5.2 CBVE特征向量的选取 83
5.3 CBVE的自动识别与提取模型构造 85
5.4 基本词汇先验集聚类 87
5.5 标注CBVE的初始训练集 88
5.6 遗传算法训练狭义CBVE的自动提取模型 90
5.7 小结 103
第六章 广义CBVE自动识别与提取方法研究 104
6.1 广义CBVE的特征向量描述 105
6.2 广义CBVE特征向量的选取 107
6.3 构造广义CBVE自动识别与提取模型 108
6.4 训练CBVE遗传算法的自动提取模型 109
6.5 小结 127
第七章 CCWE与CBVE词汇专项考察与分析 128
7.1 CBVE与CCWE特性统计分析 128
7.2 CCWE语素分析 130
7.3 CBVE的释义能力分析 132
7.4 报纸媒体用词特征分析 136
7.5 领域类用词特征分析 136
7.6 小结 138
第八章 结语 139
8.1 存在的问题 139
8.2 今后的研究设想 142
参考文献 144
附录 153
附录1 现代汉语基本词汇先验集收录情况 154
附录2 2002—2006年度的语言工程汉语通用词(词语带词性,共13484,前1100词) 158
附录3.1 CBVE备选集词语语素过滤的“不成词语素”表 168
附录3.2 狭义“语言工程用现代汉语基本词汇”的备选集(920) 170
附录3.3 第一类广义“语言工程现代汉语基本词汇”的备选集(1841) 172
附录3.4 第二类广义“语言工程现代汉语基本词汇”的备选集(324) 177
附录3.5 第三类广义“语言工程现代汉语基本词汇”的备选集(156) 178
附录3.6 第四类广义“语言工程现代汉语基本词汇”的备选集(320) 179
附录4.1 入选《现汉》、《辞海》释义词及CCWE词表的“Swadesh词”(160) 180
附录4.2 Swadesh词未被CCWE及《现汉》、《辞海》释义收录词表(41) 182
附录5.1 入选《现汉》、《辞海》释义词及CCWE词表的“台湾释义300词”(236) 183
附录5.2 “台湾释义300词”未被CCWE及《现汉》、《辞海》释义收录词表(74) 184
附录6.1 入选《现汉》、《辞海》释义词及CCWE词表的“现代汉语八百词”(665) 186
附录6.2 “现代汉语八百词”未被CCWE及《现汉》、《辞海》释义收录词表(336) 188
附录7.1 入选《现汉》、《辞海》释义词及CCWE词表的“HSK甲乙级词”(2077) 194
附录7.2 “HSK甲乙级词”未被CCWE及《现汉》、《辞海》释义收录词表(787) 200
附录8.1 兼作《现汉》及《辞海》释义词的CBVE词语(2227) 214
附录8.2 CBVE词语未被《现汉》及《辞海》兼收的词语(440) 220
附录9 六种报纸的语料量年度统计表 225
附录10 收录语料在各领域分类中的年度统计表 227