《中文文本信息处理的原理与应用》PDF下载

  • 购买积分:12 如何计算积分?
  • 作  者:苗夺谦,卫志华编著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2007
  • ISBN:7302154988
  • 页数:321 页
图书介绍:本书介绍中文文本信息处理的原理与应用。

第1章 概论 1

1.1 自然语言处理与中文信息处理 1

1.1.1 自然语言处理 1

1.1.2 自然语言处理研究的历史、现状及应用 3

1.1.3 中文信息处理 9

1.2 自然语言处理的新趋势 11

1.3 本书内容组织 15

第一部分 词法分析 18

第2章 自动分词 18

2.1 关于自动分词 18

2.1.1 分词规范 18

2.1.2 自动分词的研究内容及意义 19

2.2 分词词典 19

2.2.1 关于分词词典的构造 19

2.2.2 基于词属性的分词词典 20

2.3 机械分词方法 22

2.3.1 正向最大匹配算法 22

2.3.2 逆向最大匹配算法 23

2.3.3 邻近匹配算法 24

2.3.4 最短路径匹配算法 26

2.3.5 基于统计的最短路径分词算法 27

第3章 分词歧义消解 29

3.1 关于分词歧义 29

3.1.1 分词歧义的类型 29

3.1.2 歧义字段的发现 34

3.2 基于规则的分词消歧 34

3.2.1 分词预处理中的规则 34

3.2.2 分词规则 35

3.3 基于统计方法的分词消歧 37

3.3.1 基于词频的消歧方法 37

3.3.2 基于互信息和t-测试差的歧义切分方法 37

第4章 未登录词获取 41

4.1 关于未登录词 41

4.2 基于统计学的未登录词获取方法 42

4.2.1 基于频率的方法 42

4.2.2 基于均值和方差的方法 45

4.2.3 基于假设检验的方法 46

4.2.4 基于互信息的方法 52

4.3 中文姓名的自动辨识 54

4.3.1 辨识姓名中的当用资源 54

4.3.2 同源对表、互斥对表及其操作 57

4.3.3 姓名左右边界的确定 57

4.3.4 屏蔽与恢复 58

4.3.5 同源对表、互斥对表的规则校正 58

4.3.6 概率再筛选 59

4.3.7 中文姓名辨识系统 59

4.4 中文统计词汇获取 60

4.5 无词典分词方法 62

4.5.1 分词模型 62

4.5.2 无词典分词算法 63

第5章 语料库的构建 66

5.1 关于语料库 66

5.1.1 国外语料库概况 66

5.1.2 中文语料库建设状况 68

5.2 汉语语料库的基本加工规范 69

5.2.1 生语料与熟语料 69

5.2.2 汉语语料库加工思路 71

5.2.3 汉语语料库加工规范 72

5.2.4 汉语文本词性标注标记集 74

5.3 建设语料库的其他问题 76

5.3.1 建设语料库的软硬件基础 76

5.3.2 通用标记语言SGML 77

第一部分习题 78

第二部分 语法处理 81

第6章 自动标注 81

6.1 关于自动标注 81

6.1.1 自动标注 81

6.1.2 歧义的消除 82

6.1.3 模型的训练 84

6.1.4 词典 85

6.2 马尔可夫模型和隐马尔可夫模型 86

6.2.1 离散马尔可夫过程 86

6.2.2 隐马尔可夫模型 88

6.2.3 HMM的三个基本问题 89

6.2.4 问题1的解法 90

6.2.5 问题2的解法 92

6.2.6 问题3的解法 93

6.3 马尔可夫模型标注器 94

6.3.1 概率模型 94

6.3.2 Viterbi算法 97

6.4 隐马尔可夫模型标注器 98

6.4.1 隐马尔可夫模型标注算法 98

6.4.2 隐马尔可夫模型训练中的初始化的作用 100

第7章 语法表示 101

7.1 关于语法表示 101

7.2 形式语法描述 101

7.3 短语结构语法 104

7.4 转移网络 105

7.5 短语结构与句法树 107

第8章 语法分析 109

8.1 关于语法分析 109

8.2 基于符号串的句法分析 110

8.3 自底向上的图句法分析 115

8.4 自顶向下的图句法分析 123

8.5 基于转移网络的句法分析 125

8.6 移进归约句法分析器 129

8.6.1 确定句法分析器的状态 129

8.6.2 移进归约句法分析器 131

8.6.3 移进归约句法分析器与歧义性 134

8.6.4 词汇的歧义性 134

8.6.5 有歧义的句法分析状态 135

8.7 概率上下文无关文法分析 136

8.7.1 概率上下文无关文法的一些特征 138

8.7.2 概率上下文无关文法的问题 139

8.7.3 词串概率的计算 141

8.7.4 内部-外部算法的问题 147

第二部分习题 148

第三部分 语义分析 153

第9章 语义表示 153

9.1 关于语义表示 153

9.2 语义的逻辑表示方法 155

9.2.1 一阶谓词演算 155

9.2.2 基本逻辑形式语言 156

9.2.3 逻辑形式中的歧义表示 158

9.3 论旨角色 159

9.4 语义网络表示法 161

9.5 框架表示法 162

9.6 量词的处理 165

第10章 语义分析 167

10.1 关于语义分析 167

10.2 组合理论与语义解释 168

10.2.1 组合理论 168

10.2.2 λ表达式与语义解释 169

10.3 基于语义特征的解释方法 171

10.3.1 带语义解释的简单语法和词典 171

10.3.2 语义角色 175

10.3.3 特征合一的语义解释 176

10.4 基于语法关系的语义分析 179

10.5 语义语法 182

10.6 模板匹配 184

10.7 语义驱动的分析技术 188

第11章 语义消歧 192

11.1 关于语义歧义 192

11.2 选择限制法消歧 192

11.2.1 选择限制 192

11.2.2 选择限制与句法分析结合的消歧方法 197

11.3 语义网络 200

11.4 统计词义消歧 203

11.5 统计语义优选 205

第三部分习题 208

第四部分 应用与技术 214

第12章 文本分类 214

12.1 关于文本分类 214

12.1.1 自动文本分类定义 214

12.1.2 文本分类任务的特点 215

12.1.3 文本分类基本实现途径 215

12.1.4 文本分类的组成 216

12.1.5 文本分类的应用领域 217

12.1.6 国内外研究现状 219

12.2 文本分类方法 219

12.2.1 文本表示与文本特征选择 219

12.2.2 分类器设计 224

12.2.3 分类器的阈值选择 228

12.3 文本分类的评测 228

12.3.1 单类赋值 229

12.3.2 多类排序 230

第13章 信息检索 231

13.1 关于信息检索 231

13.1.1 信息检索的对象和任务 231

13.1.2 信息检索的评测 232

13.1.3 信息检索模型及其设计 233

13.1.4 应用领域 234

13.1.5 中文信息检索的特点 235

13.2 基于统计学的信息检索模型 235

13.2.1 布尔模型 235

13.2.2 向量空间模型 238

13.2.3 概率模型 246

13.3 基于语义的信息检索 254

13.3.1 基于NLP的方法 254

13.3.2 潜在语义索引 256

13.3.3 神经网络 262

13.4 典型信息检索系统 263

13.5 信息检索技术前沿 264

13.5.1 基于Web的信息检索 264

13.5.2 搜索引擎 266

第14章 信息抽取 279

14.1 关于信息抽取 279

14.2 半结构化文本的信息抽取技术 287

14.2.1 基于隐马尔可夫模型的信息提取 287

14.2.2 基于规则的信息抽取方法 291

14.3 典型信息抽取系统 294

14.3.1 AutoSlog信息抽取系统 294

14.3.2 PALKA 297

14.4 Web信息抽取 299

14.4.1 包装器方式的信息抽取 300

14.4.2 基于本体方式的信息抽取 301

14.4.3 基于Web查询的信息抽取 302

第15章 自动文摘 304

15.1 关于自动文摘 304

15.1.1 文摘的定义 304

15.1.2 文摘的分类 305

15.1.3 自动文摘的意义 308

15.2 自动文摘的方法 308

15.2.1 基于统计的自动文摘 309

15.2.2 基于理解的自动文摘 310

15.2.3 基于信息抽取的自动文摘方法 311

15.2.4 基于结构的自动文摘 311

15.3 自动文摘系统的评测 312

15.3.1 内部评价 313

15.3.2 自动文摘的外部评价 314

15.3.3 评测方法的研究现状 314

15.4 自动文摘系统 315

第四部分习题 317

参考文献 319