《大规模中文文本处理》PDF下载

  • 购买积分:9 如何计算积分?
  • 作  者:吴立德等著
  • 出 版 社:上海:复旦大学出版社
  • 出版年份:1997
  • ISBN:7309018818
  • 页数:170 页
图书介绍:

第一章 概论 1

1.1 自然语言处理 1

1.1.1 中文信息处理与自然语言处理 1

1.1.2 自然语言处理的基本问题 2

1.2 自然语言处理中的新趋势 7

1.2.1 新趋势的特征 7

1.2.2 美国的情况 8

1.2.3 日本和欧洲的情况 14

1.2.4 在中国 14

1.2.5 一个并未解决的问题 14

1.3 本书内容 15

参考文献 15

第二章 自动分词 16

2.1 自动分词概述 16

2.1.1 分词规范 16

2.1.2 自动分词的原则 17

2.2 词典体系 17

2.2.1 词典体系简介 17

2.2.2 分析词典 18

2.2.3 概念词典 20

2.2.4 动态词典 22

2.3 机械分词方法 23

2.3.1 机械分词方法简介 23

2.3.2 机械分词方法的局限性 24

2.4 歧义字段的处理 25

2.4.1 歧义处理知识 25

2.4.2 一体化分词 25

2.4.3 分词规则 26

2.4.4 复旦分词系统 27

2.5 未登录词的处理 30

2.5.1 未登录词识别方法综述 31

2.5.2 中文姓名的自动辨识 31

2.5.3 统计词汇获取 33

参考文献 36

第三章 自动标注 38

3.1 词性标注与概念标注 38

3.1.1 词性标注与概念标注 38

3.1.2 歧义的消除 39

3.1.3 模型的训练 42

3.1.4 词典 43

3.2 隐马尔可夫模型 43

3.2.1 离散马尔可夫过程 44

3.2.2 隐马尔可夫模型 46

3.2.3 HMM的三个基本问题 47

3.2.4 问题1的解法 48

3.2.5 问题2的解法 49

3.2.6 问题3的解法 51

3.3 稀疏事件的概率估计 53

3.3.1 计数等价类和交叉检验 53

3.3.2 留一估计与Turing—Good公式 55

3.3.3 空等价类 56

3.3.4 有序概率问题 57

3.3.5 受约束模型和折扣模型 57

3.3.6 联合概率与条件概率 59

3.3.7 其他的一些小概率估计算法 61

3.4 标注算法的一个具体例子 62

3.4.1 词类分类标准 62

3.4.2 模型选择 63

3.4.3 词典的管理 64

3.4.4 面向文本解释的标注 65

3.4.5 熟语料的增加 66

参考文献 66

第四章 句法分析 68

4.1 语法分析概要介绍 68

4.1.1 句子的几种数据结构表示 69

4.1.2 语法表示 70

4.1.3 语法分析过程概要 71

4.1.4 自然语言语法分析中的歧义性 72

4.2 语法分析的知识库 72

4.2.1 分析词典 72

4.2.2 语法分析规则 74

4.3 传统分析器 74

4.3.1 传统LR语法分析器 74

4.3.2 传统图算法分析器 76

4.4 扩展LR算法 78

4.4.1 语法分析表的构造 79

4.4.2 扩展LR算法过程 81

4.4.3 例子 84

4.4.4 扩展LR算法的优点和特征 89

4.5 双向图算法分析器 89

4.5.1 传统图算法分析器的不足之处 89

4.5.2 规则的触发类 90

4.6 基于双向图算法的快速部分语法分析 91

4.6.1 FIRST分析表和LAST分析表 91

4.6.2 弧的竞争机制 92

4.6.3 数据结构 93

4.6.4 算法 94

4.6.5 例子 96

4.7 处理汉语真实文本中的一些现象 97

4.7.1 处理语法错误、文字错误 97

4.7.2 句间关系分析 98

参考文献 100

第五章 VSM模型和篇章分析 102

5.1 向量空间模型 102

5.2 项的自动选取及权重评价 103

5.2.1 一般考虑 103

5.2.2 反比文档频数权重评价 104

5.2.3 信噪比 104

5.2.4 项的区分度 105

5.2.5 一个实用的项的权重评价函数 106

5.3 文档特征项 106

5.3.1 词汇特征与字特征 106

5.3.2 短语特征 108

5.3.3 项的分类和分类词典 109

5.4 篇章结构关系图的建立与应用 111

5.4.1 篇章结构关系图 111

5.4.2 主题分析和聚类 112

5.4.3 主题浏览与跳段阅读 114

5.5 基于语言学知识的分析方法 116

参考文献 117

第六章 应用技术 119

6.1 自动索引 119

6.1.1 从手工索引到自动索引 119

6.1.2 索引词典 120

6.1.3 自动索引的过程 121

6.2 信息检索 122

6.2.1 简介 122

6.2.2 严格匹配模型 124

6.2.3 概率模型 125

6.2.4 向量检索模型 136

6.3 文档分类 144

6.3.1 文档分类简述 144

6.3.2 有指导的分类 145

6.3.3 无指导的分类 149

6.4 自动文摘 153

6.4.1 自动文摘研究概况 153

6.4.2 自动文摘的信息处理过程 155

6.4.3 自动文摘的评估 158

6.4.4 实例:FDASCT文摘系统简介 159

参考文献 163

附录:术语表 167