《中文信息处理原理及应用 第2版》PDF下载

  • 购买积分:11 如何计算积分?
  • 作  者:苗夺谦,卫志华,张志飞编著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2015
  • ISBN:9787302389507
  • 页数:281 页
图书介绍:本书是一本全面系统地介绍中文文本信息处理的教材,内容丰富,由浅入深地讲述了中文文本理解的原理与应用。本书从基于规则和基于统计两个角度介绍自然语言分析方法,要包括四大部分:词法分析、语法分析、语义分析和应用与技术,其中词法分析介绍中文特有的分词问题,语法和语义分析部分从表示入手并给出形式化分析的算法,最后一部分讲述自然语言处理在文本分类、信息检索、问答系统和自动文摘等领域的应用。

第1部分 预备知识 3

第1章 概论 3

1.1 自然语言处理与中文信息处理 3

1.1.1 自然语言处理 3

1.1.2 中文信息处理 4

1.2 研究内容 6

1.3 应用领域 8

第2章 预备知识 9

2.1 数学基础 9

2.1.1 概率论 9

2.1.2 随机过程 11

2.1.3 信息论 18

2.1.4 形式语言与自动机 21

2.2 语言学基础 24

2.2.1 计算语言学概述 24

2.2.2 语素和词 24

2.2.3 句法与篇章语法 25

2.2.4 词义与句义 27

第2部分 词法分析 33

第3章 自动分词概述 33

3.1 自动分词 33

3.1.1 分词规范 33

3.1.2 自动分词的研究内容及意义 34

3.1.3 自动分词方法 34

3.2 分词歧义问题 35

3.3 未登录词问题 37

3.4 自动分词评测 39

第4章 基于词典的分词方法 43

4.1 分词词典 43

4.1.1 关于分词词典的构造 43

4.1.2 基于词属性的分词词典 44

4.1.3 基于逐字二分的分词词典 45

4.2 机械分词方法 46

4.2.1 正向最大匹配算法 46

4.2.2 逆向最大匹配算法 47

4.2.3 邻近匹配算法 48

4.2.4 最短路径匹配算法 49

4.3 基于规则的分词方法 51

4.3.1 分词预处理中的规则 51

4.3.2 分词规则 52

4.4 中文姓名切分 54

4.4.1 切分姓名中的当用资源 54

4.4.2 同源对表、互斥对表及其操作 57

4.4.3 姓名左右边界的确定 57

4.4.4 屏蔽与恢复 58

4.4.5 同源对表和互斥对表的校正规则 58

4.4.6 概率再筛选 59

4.4.7 中文姓名切分系统 59

第5章 基于语料库的分词方法 61

5.1 语料库 61

5.1.1 语料库概述 61

5.1.2 语料库加工规范 65

5.1.3 现代汉语语料库构建实例 71

5.2 基于统计的分词方法 72

5.2.1 统计分词概述 72

5.2.2 统计分词消歧 73

5.2.3 统计未登录词获取 76

5.2.4 统计分词模型 83

5.3 基于机器学习的分词方法 85

5.3.1 最大熵分词 86

5.3.2 条件随机场分词 88

第2部分习题 91

第3部分 语法分析 95

第6章 自动词性标注 95

6.1 词性标注概述 95

6.1.1 词性标注 95

6.1.2 词性标记规范 96

6.1.3 词性消歧 97

6.1.4 词性标注评测 98

6.2 基于统计的词性标注方法 99

6.2.1 统计模型的训练 99

6.2.2 马尔可夫模型标注方法 100

6.2.3 隐马尔可夫模型标注方法 103

6.3 基于规则的词性标注方法 106

6.3.1 按兼类词搭配关系构造的规则 106

6.3.2 按词语结构获取的规则 107

6.4 其他标注方法 108

6.4.1 基于规则和统计相结合的标注方法 108

6.4.2 基于条件随机场的词性标注方法 109

6.4.3 词性标注中的未登录词处理方法 109

第7章 语法表示方法 110

7.1 语法表示概述 110

7.2 形式语法描述 110

7.2.1 重写规则 110

7.2.2 转移网络 112

7.3 短语结构语法 113

7.4 依存语法 115

第8章 句法分析方法 117

8.1 句法分析概述 117

8.1.1 句法分析 117

8.1.2 结构歧义 118

8.1.3 句法分析评测 119

8.2 基于规则的句法分析方法 120

8.2.1 自顶向下句法分析 121

8.2.2 自底向上句法分析 122

8.2.3 线图句法分析 124

8.2.4 转移网络句法分析 126

8.3 基于统计的句法分析方法 129

8.3.1 概率上下文无关文法分析 129

8.3.2 依存句法分析 137

第3部分习题 142

第4部分 语义分析 147

第9章 概念标注 147

9.1 概念标注概述 147

9.2 语言知识库 148

9.3 概念标注方法 150

第10章 语义表示 154

10.1 语义表示概述 154

10.2 语义逻辑表示法 155

10.2.1 一阶谓词演算 155

10.2.2 基本逻辑形式语言 157

10.2.3 逻辑形式中的歧义表示 159

10.2.4 论旨角色 160

10.3 语义网络表示法 161

10.4 语义框架表示法 162

第11章 语义分析 166

11.1 语义分析概述 166

11.2 基于语义特征的语义分析 167

11.2.1 组合理论 167

11.2.2 λ表达式与语义解释 168

11.2.3 带语义解释的简单语法和词典 170

11.2.4 语义角色 172

11.2.5 特征合一的语义解释 173

11.3 基于语法关系的语义分析 176

11.4 基于模板匹配的语义分析 179

11.5 语义消歧 183

11.5.1 语义消歧概述 183

11.5.2 基于规则的语义消歧 184

11.5.3 基于统计的语义消歧 193

第4部分习题 199

第5部分 应用与技术 203

第12章 文本分类 203

12.1 文本分类概述 203

12.1.1 自动文本分类定义 203

12.1.2 文本分类任务的特点 204

12.1.3 文本分类基本实现途径 204

12.1.4 文本分类的组成 205

12.1.5 文本分类的应用领域 206

12.1.6 国内外研究现状 207

12.2 文本分类方法 208

12.2.1 文本表示与文本特征选择 208

12.2.2 分类器设计 211

12.2.3 分类器的阈值选择 215

12.3 文本分类评测 216

12.3.1 单类赋值 216

12.3.2 多类排序 218

第13章 信息检索 219

13.1 信息检索概述 219

13.1.1 信息检索的对象和任务 219

13.1.2 信息检索的评测 220

13.1.3 信息检索模型 220

13.1.4 中文信息检索的特点 222

13.2 基于统计的信息检索模型 222

13.2.1 布尔模型及其扩展 222

13.2.2 向量空间模型 224

13.2.3 概率模型 232

13.3 基于语义的信息检索 239

13.3.1 基于NLP的方法 239

13.3.2 潜在语义索引 241

13.3.3 基于神经网络的信息检索 246

13.4 信息检索技术评测 247

13.4.1 文本检索会议 247

13.4.2 亚洲语言信息检索评测会议 248

13.4.3 863信息检索评测项目 248

13.5 Web信息检索 249

13.5.1 Web信息检索的特点 249

13.5.2 搜索引擎 251

第14章 问答系统 258

14.1 问答系统概述 258

14.1.1 问答系统的发展 258

14.1.2 问答系统的定义 259

14.1.3 问答系统的研究趋势 260

14.2 关键技术 260

14.2.1 关键词抽取 261

14.2.2 关键词扩展 263

14.3 问答系统评测 264

14.4 Watson问答系统 265

第15章 自动文摘 267

15.1 自动文摘概述 267

15.1.1 文摘的定义 267

15.1.2 文摘的分类 268

15.1.3 自动文摘的意义 269

15.2 自动文摘的方法 269

15.2.1 基于统计的自动文摘 269

15.2.2 基于理解的自动文摘 270

15.2.3 基于信息抽取的自动文摘方法 271

15.2.4 基于结构的自动文摘 271

15.3 自动文摘系统评测 272

15.3.1 内部评价 272

15.3.2 外部评价 273

15.4 自动文摘系统 273

第5部分习题 275

附录A 北京大学计算语言学研究所汉语词性标注标记集 276

附录B 哈尔滨工业大学CDT依存句法标注体系 278

参考文献 279