绪论 1
第一节 研究背景概述 1
一、研究缘起 1
二、研究内容 3
三、研究方法及具体方案 7
四、主要观点及创新之处 8
五、重点难点 9
第二节 研究相关动态及主要内容 10
一、认知分级词表的研制 10
二、基本层次范畴理论及应用的研究 13
(一)基本原理层面 13
(二)基本层次范畴与其他词汇学范畴的关系 14
(三)基本层次范畴的特征 15
(四)基层词的提取 16
(五)基本层次范畴的应用 19
三、本人前期已做的实证性研究 21
(一)基层词提取方法 21
(二)基层词的语言学特性 22
(三)基层词在国际汉语教学中的优势 23
第二章 性质状态类基层词的提取 25
第一节 基层词提取面临的问题 25
第二节 相对词频定位法 26
一、相对词频定位法的基本思想 26
(一)区分“绝对词频”和“相对词频” 26
(二)词义范畴间的不平衡性使“绝对词频”失效 27
(三)以“相对词频”反映认知本质 27
二、相对词频定位法的技术路线 29
三、相对词频定位法评测 31
第三节 定位性质状态类基层词的数据准备 31
一、提取性质状态类词汇在大规模语料中的词频数据 31
(一)选择义类词典,明确考察对象 31
(二)建立大规模文本语料库 32
(三)依据词形提取词频数据 33
(四)明确性质状态类基层词涵盖的词性 34
(五)数据修整 38
二、性质状态类词汇的数据特征描写 40
(一)二级范畴 41
(二)三级范畴 42
(三)四级范畴 45
(四)五级范畴 49
第四节 定位性质状态类准基层词 53
一、搜索同名次级范畴,定位部分准基层词 53
(一)明确从上到下第一个出现完形的层级 53
(二)检索同名次级(五级)范畴 54
(三)定位同名次级(五级)范畴中的最大词频 55
(四)定位同名次级(五级)范畴中的最高频词 56
二、搜索最高频次级范畴,定位剩余准基层词 57
(一)定位无同名次级范畴的四级范畴 58
(二)定位最高频次级(五级)范畴 59
(三)定位最高频次级(五级)范畴中的最高频词 59
三、准基层词初筛结果 59
第五节 异常值分析和属性验证 61
一、异常值分析 61
二、属性验证 68
第六节 性质状态类基层词提取结果 70
第三章 性质状态类基层词的分级 72
第一节 基层词分级的技术路线 72
第二节 语用承载量(PL) 74
一、性质状态类词汇的能产性 74
(一)形式能产性 74
(二)实际能产性 77
二、性质状态类基层词的能产性 79
三、性质状态类词汇的语用承载量 80
(一)语用承载量与单词频排名差 81
(二)平均语用承载量(APL) 82
(三)单词频-语用承载量指数(TFPLR) 83
四、性质状态类基层词的语用承载量 83
第三节 逆文本频率指数(IDF) 87
一、逆文本频率指数在基层词分级中的应用 87
二、文本分类语料库的构建 88
三、基层词逆文本频率指数的计算 89
第四节 综合分级指标(SCI) 94
一、综合分级指标中的变量 94
二、综合分级指标的计算公式 95
三、数据平滑 96
四、综合分级指标的计算结果 97
五、基层词的认知函数 101
第五节 性质状态类基层词分级结果 103
第四章 性质状态类基层词的特征 107
第一节 词长与结构类型 107
一、词长 107
(一)基层词与非基层词对比 107
(二)基层词与全部词汇对比 108
(三)基层词不同级别间对比 110
二、结构类型 111
(一)基层词的结构类型 111
(二)基层词不同级别间结构类型对比 112
三、小结 115
(一)词长特征 115
(二)结构类型特征 115
第二节 自信息量与熵 116
一、自信息量 116
(一)基层词与非基层词对比 116
(二)基层词与全部词汇对比 120
(三)不同级别基层词对比 120
二、熵 122
三、小结 124
(一)自信息量特征 124
(二)熵的特征 124
第三节 语用搭配 125
一、词汇语用搭配库的建立 125
二、提取基层词的语用搭配数据 127
(一)数据修正 127
(二)基层词在前/在后搭配词种数对比 128
(三)基层词在前/在后搭配总次数对比 129
三、基于PageRank的基层词语用搭配价值验证 131
四、小结 133
第四节 习得顺序 134
一、习得顺序研究的出发点和思路 134
二、小学生作文语料库的建立 135
(一)选定爬取的目标网站 136
(二)在网络爬虫工具中对目标网站进行相应配置 138
(三)对爬取结果去除网页标签 139
(四)语料分词及入库 143
三、基层词习得顺序数据的提取 143
四、基层词习得顺序的数据分析 146
(一)掌握先后分析 146
(二)使用趋势分析 151
五、小结 152
第五节 词汇源流 152
一、词汇源流研究的出发点和思路 152
二、性质状态类词汇历时语用语料库的建立 153
(一)以性质状态类词汇为纲爬取语料 153
(二)调整数据结构并入库 155
三、基层词历时语用数据的提取与分析 156
(一)发源先后分析 156
(二)使用趋势分析 159
四、小结 161
第五章 总结与展望 163
第一节 研究总结 163
第二节 应用展望 164
一、汉语词汇教学 164
二、工具书编纂 165
三、教材编写及语言测试 166
四、语言学基础研究 167
参考文献 169
附录 178