《固定短语自动提取研究》PDF下载

  • 购买积分:9 如何计算积分?
  • 作  者:刘荣著
  • 出 版 社:北京:科学出版社
  • 出版年份:2016
  • ISBN:7030473837
  • 页数:163 页
图书介绍:

第一章 绪论 1

1.1 问题的提出 1

1.2 固定短语的界定 6

1.3 研究目标 6

1.4 研究内容和研究重点 6

1.5 研究意义 9

1.5.1 对中文信息处理领域的意义 9

1.5.2 对语言资源监测领域的意义 9

1.5.3 对汉语语言学领域的意义 10

1.5.4 对词典编纂领域的意义 11

1.5.5 对对外汉语教学领域的意义 12

1.5.6 对舆情分析领域的意义 12

1.6 创新点 13

参考文献 14

第二章 短语提取相关研究综述 15

2.1 国内语言学界对固定短语的研究 15

2.1.1 国内语言学界对固定短语的定义 15

2.1.2 国内语言学界对固定短语的研究方法和现状 16

2.2 信息处理界对短语的研究综述 16

2.2.1 国内外短语识别基本方法 17

2.2.2 术语提取基本方法和技术 18

2.2.3 国内对于短语研究所做的重要的工作 19

2.2.4 搭配的度量指标——搭配强度、搭配离散度、搭配尖峰 22

2.3 国外短语提取的最新进展 24

2.3.1 多字词表达的定义 24

2.3.2 多字词表达的复杂特性 25

2.3.3 多字词表达的提取 27

2.3.4 多字词表达研究的代表性工作 28

2.4 本章小结 29

参考文献 30

第三章 固定短语提取的基础平台 34

3.1 基础数据资源——DCC语料库 34

3.1.1 语料库和语料库语言学 34

3.1.2 动态知识更新理论与动态流通语料库 36

3.1.3 基于动态流通语料库的主要研究 37

3.2 工具简介 38

3.3 基础数据资源加工——语料的准备和预处理 40

3.3.1 语料的选择标准 40

3.3.2 语料库的存储模式 41

3.3.3 语料库的语料量 42

3.3.4 原始语料格式转换 42

3.3.5 文本分类 42

3.3.6 文本分词 43

3.4 本章小结 44

参考文献 44

第四章 利用特定领域的高频种子词提取固定短语候选串 45

4.1 教育领域高频种子词提取 45

4.2 面向特定领域的固定短语提取长度的确定 50

4.2.1 已有的研究成果 51

4.2.2 实验步骤和实验数据 51

4.2.3 实验结果及分析 51

4.2.4 结论 55

4.3 固定短语候选串提取 55

4.4 本章小结 56

参考文献 56

第五章 固定短语候选串的定量考察与分析 58

5.1 结合紧密与搭配的关系 58

5.2 搭配研究综述 58

5.2.1 国外搭配研究综述 58

5.2.2 国内语言学界对搭配的研究 60

5.2.3 国内外语言界对搭配的研究 63

5.2.4 国内计算语言学界对搭配的研究 64

5.3 对结合紧密的搭配从统计量角度的分析 65

5.3.1 互信息和熵简介 65

5.3.2 互信息和熵的计算 68

5.3.3 互信息和熵的计算结果 68

5.4 按照频次、互信息结合的方法提取两个切分单位固定短语候选串 69

5.4.1 实验方法 69

5.4.2 实验结果及分析 69

5.4.3 对“v+n”的考察 73

5.5 利用频次、互信息、熵值结合的方法提取固定短语候选串 74

5.5.1 实验方法 74

5.5.2 实验结果 74

5.5.3 数据分析 75

5.6 本章小结 76

参考文献 76

第六章 固定短语候选串的句法角度考察与分析 78

6.1 固定短语候选串从定量到定性分析 78

6.2 句法角度考察 79

6.2.1 类联接简介 81

6.2.2 类联接的定义 83

6.2.3 本文的类联接类型 83

6.3 类联接模式对固定短语候选串的提取 86

6.3.1 实验方法 86

6.3.2 实验结果 87

6.4 数据分析 87

6.4.1 类联接“a+n”候选串分析 87

6.4.2 类联接“n+n”候选串分析 88

6.4.3 类联接“v+n”候选串分析 91

6.4.4 类联接“n+v”候选串分析 93

6.4.5 类联接“v+v”候选串分析 95

6.5 本章小结 98

参考文献 98

第七章 固定短语候选串语义角度考察与分析 99

7.1 搭配与语义的相互关系 99

7.1.1 语义对搭配的制约 99

7.1.2 搭配的语义基础 100

7.1.3 搭配决定语义 100

7.1.4 国内研究综述 101

7.2 知网简介 101

7.2.1 知网的结构 102

7.2.2 知网对词的描述 103

7.2.3 知网的信息结构规则 103

7.3 基于知网的考察和过滤 104

7.4 基于知网的考察实验 105

7.4.1 实验方法 105

7.4.2 实验数据 105

7.4.3 实验分析过程 106

7.5 本章小结 124

参考文献 125

第八章 固定短语候选串的历时考察 126

8.1 历时中包含有共时和共时中包含有历时的相对时间观 126

8.1.1 索绪尔的时间观 126

8.1.2 历时中包含有共时和共时中包含有历时的相对时间观 127

8.2 时点和时段的相对性 128

8.3 历时考察相关研究工作 130

8.4 历时考察工作 131

8.4.1 语料数据 131

8.4.2 历时考察对象 131

8.4.3 历时考察方法 141

8.4.4 数据分析 142

8.5 本章小结 144

参考文献 144

第九章 结语 145

9.1 全文总结 145

9.2 进一步的工作 146

附录 148

附表1 位序比法提取的教育领域高频词(按频次降序排序前一百) 148

附表2 左熵排序(按左熵降序排序前一百) 151

附表3 右熵排序(按右熵降序排序前一百) 154

附表4 “v+n”互信息排序前100(按互信息降序排序前一百) 158

后记 162