《现代汉语基本词汇自动识别方法研究》PDF下载

  • 购买积分:10 如何计算积分?
  • 作  者:赵小兵编
  • 出 版 社:北京:中央民族大学出版社
  • 出版年份:2012
  • ISBN:9787566002525
  • 页数:230 页
图书介绍:由于汉语词汇量化标准受限于计算机语言学发展程度,本书首先对动态流通资料库上的基本汉语词汇、通用词汇进行研究并进行概念界定,在此基础上对现代汉语词汇的自动化识别方法进行了系统研究。

第一章 绪论 1

1.1 基本词汇的来源及争论 2

1.2 基于动态流通语料库的现代汉语基本词汇概念的界定 6

1.3 基本词汇的研究意义 7

1.4 基本词汇研究及相关文献综述 10

1.5 研究目标和研究内容 19

1.6 本书内容结构 22

第二章 CBVE及其自动提取方法相关理论探讨 24

2.1 现代汉语词汇的层级关系 24

2.2 动态流通语料库与词汇的稳态研究 27

2.3 从“相对时间观”看基本词汇的稳固性特征 29

2.4 关于模式识别的概念及其方法理论 31

2.5 小结 36

第三章 CBVE自动识别与提取的研究方法论 37

3.1 CBVE自动识别与提取研究的技术路线 37

3.2 研究语料的选择 38

3.3 CBVE自动提取的基本词汇先验集研究 42

3.4 词汇统计的预处理 46

3.5 小结 50

第四章 CCWE的自动识别与提取方法研究 51

4.1 CCWE通用度的定量分析方法探讨 51

4.2 词汇通用度的计算 66

4.3 CCWE的提取步骤 71

4.4 CCWE自动提取实验结果分析 76

4.5 小结 80

第五章 狭义的CBVE自动识别与提取方法研究 81

5.1 CBVE的特征向量描述 81

5.2 CBVE特征向量的选取 83

5.3 CBVE的自动识别与提取模型构造 85

5.4 基本词汇先验集聚类 87

5.5 标注CBVE的初始训练集 88

5.6 遗传算法训练狭义CBVE的自动提取模型 90

5.7 小结 103

第六章 广义CBVE自动识别与提取方法研究 104

6.1 广义CBVE的特征向量描述 105

6.2 广义CBVE特征向量的选取 107

6.3 构造广义CBVE自动识别与提取模型 108

6.4 训练CBVE遗传算法的自动提取模型 109

6.5 小结 127

第七章 CCWE与CBVE词汇专项考察与分析 128

7.1 CBVE与CCWE特性统计分析 128

7.2 CCWE语素分析 130

7.3 CBVE的释义能力分析 132

7.4 报纸媒体用词特征分析 136

7.5 领域类用词特征分析 136

7.6 小结 138

第八章 结语 139

8.1 存在的问题 139

8.2 今后的研究设想 142

参考文献 144

附录 153

附录1 现代汉语基本词汇先验集收录情况 154

附录2 2002—2006年度的语言工程汉语通用词(词语带词性,共13484,前1100词) 158

附录3.1 CBVE备选集词语语素过滤的“不成词语素”表 168

附录3.2 狭义“语言工程用现代汉语基本词汇”的备选集(920) 170

附录3.3 第一类广义“语言工程现代汉语基本词汇”的备选集(1841) 172

附录3.4 第二类广义“语言工程现代汉语基本词汇”的备选集(324) 177

附录3.5 第三类广义“语言工程现代汉语基本词汇”的备选集(156) 178

附录3.6 第四类广义“语言工程现代汉语基本词汇”的备选集(320) 179

附录4.1 入选《现汉》、《辞海》释义词及CCWE词表的“Swadesh词”(160) 180

附录4.2 Swadesh词未被CCWE及《现汉》、《辞海》释义收录词表(41) 182

附录5.1 入选《现汉》、《辞海》释义词及CCWE词表的“台湾释义300词”(236) 183

附录5.2 “台湾释义300词”未被CCWE及《现汉》、《辞海》释义收录词表(74) 184

附录6.1 入选《现汉》、《辞海》释义词及CCWE词表的“现代汉语八百词”(665) 186

附录6.2 “现代汉语八百词”未被CCWE及《现汉》、《辞海》释义收录词表(336) 188

附录7.1 入选《现汉》、《辞海》释义词及CCWE词表的“HSK甲乙级词”(2077) 194

附录7.2 “HSK甲乙级词”未被CCWE及《现汉》、《辞海》释义收录词表(787) 200

附录8.1 兼作《现汉》及《辞海》释义词的CBVE词语(2227) 214

附录8.2 CBVE词语未被《现汉》及《辞海》兼收的词语(440) 220

附录9 六种报纸的语料量年度统计表 225

附录10 收录语料在各领域分类中的年度统计表 227