当前位置:首页 > 工业技术
中文信息处理教程
中文信息处理教程

中文信息处理教程PDF电子书下载

工业技术

  • 电子书积分:11 积分如何计算积分?
  • 作 者:宋继华,王强军,杨尔弘编著
  • 出 版 社:北京:高等教育出版社
  • 出版年份:2011
  • ISBN:7040318968
  • 页数:283 页
图书介绍:
《中文信息处理教程》目录

第1章 导论 1

本章概览 1

知识结构图 1

1.1 基本概念 1

1.1.1 学科由来 1

1.1.2 学科定位 2

1.2 研究内容 3

1.3 难点分析 4

1.3.1 歧义 4

1.3.2 语法 5

1.4 研究路线 6

1.5 习题 7

第2章 汉字的信息处理 9

本章概览 9

知识结构图 9

2.1 基础知识 10

2.1.1 汉字的形、音、义 10

2.1.2 汉字的字频和字量 11

2.1.3 汉字的编码 12

2.2 交换码和内码 13

2.2.1 ASCII 13

2.2.2 编码框架:ISO/IEC 2022 14

2.2.3 GB2312 17

2.2.4 BIG5 19

2.2.5 ISO/IEC10646和Unicode 21

2.2.6 GBK 24

2.2.7 GB18030 25

2.2.8 编程务实 27

2.3 汉字的输入 34

2.3.1 键盘输入 35

2.3.2 字形识别 37

2.3.3 语音识别 40

2.4 汉字的输出 41

2.5 中文编码的前沿课题 44

2.5.1 古籍数字化 44

2.5.2 《通用规范汉字表》 45

2.5.3 少数民族文字 46

2.6 习题 47

第3章 词的信息处理 48

本章概览 48

知识结构图 48

3.1 基础知识 49

3.1.1 概率论基础 49

3.1.2 信息论基础 50

3.1.3 n元语法模型 55

3.1.4 语法模型的性能评价 56

3.2 自动分词 57

3.2.1 汉语词的界定 57

3.2.2 自动分词方法 59

3.2.3 未登录词的识别 67

3.3 词性标注 76

3.3.1 词性标注概述 76

3.3.2 基于统计的词性标注方法 77

3.3.3 基于规则的词性标注方法 81

3.4 命名实体识别 84

3.4.1 命名实体识别介绍 84

3.4.2 中文命名实体的定义和标准 86

3.4.3 中文命名实体识别方法 88

3.5 习题 92

第4章 句子的信息处理 93

本章概览 93

知识结构图 93

4.1 形式语言基础 94

4.1.1 形式语言理论 94

4.1.2 自动机理论 97

4.2 短语结构语法 100

4.2.1 汉语短语结构语法 101

4.2.2 分析算法 101

4.2.3 实用策略 119

4.3 依存语法 122

4.3.1 依存句法理论 122

4.3.2 分析算法 124

4.4 句法理论探索 130

4.4.1 Chomsky语法理论 130

4.4.2 广义短语结构语法 134

4.4.3 链语法 136

4.4.4 范畴语法 137

4.5 习题 139

第5章 句子语义表达与分析 140

本章概览 140

知识结构图 140

5.1 格语法 140

5.1.1 基本思想 141

5.1.2 格的分类 143

5.1.3 格的判断 145

5.1.4 用格语法生成句子 147

5.1.5 汉语格语法 148

5.2 概念依存理论 151

5.2.1 基本模型 151

5.2.2 语义推理 155

5.2.3 脚本法 156

5.3 概念层次网络(HNC) 159

5.4 语义本体 162

5.5 习题 166

第6章 中文信息处理的基础资源 168

本章概览 168

知识结构图 168

6.1 语料库概述 169

6.1.1 语料库发展历史 170

6.1.2 语料库属性 176

6.2 典型中文语科库介绍 178

6.2.1 北京大学计算语言学研究所《人民日报》标注语料库 178

6.2.2 清华大学汉语树库 179

6.2.3 哈尔滨工业大学汉语依存树库 183

6.2.4 中国台湾“中央研究院”语料库 185

6.2.5 国家语言文字工作委员会语料库 189

6.2.6 山西大学语料库 190

6.3 典型中文语言知识库资源介绍 192

6.3.1 北京大学计算语言学研究所综合型语言知识库 192

6.3.2 知网 200

6.3.3 中国台湾“中央研究院”中文词汇网络 204

6.3.4 概念层次网络 207

6.3.5 汉语框架网知识库 208

6.4 中文语言资源联盟 211

6.5 习题 212

第7章 文本分析与处理 213

本章概览 213

知识结构图 213

7.1 文本分类 214

7.1.1 文本表示 214

7.1.2 文本分类算法 220

7.2 信息检索 225

7.2.1 常用的检索模型 226

7.2.2 搜索引擎 227

7.3 问答系统 233

7.3.1 问答系统概述 233

7.3.2 系统构成 234

7.3.3 典型问答系统介绍 236

7.4 信息抽取 238

7.4.1 信息抽取概述 238

7.4.2 系统的基本构成及关键技术 239

7.5 自动文摘 241

7.5.1 自动文摘概述 241

7.5.2 基于统计的机械文摘 242

7.5.3 基于意义的理解文摘 243

7.6 习题 243

第8章 中文信息处理评测 245

本章概览 245

知识结构图 245

8.1 评测概述 246

8.1.1 评测的意义 246

8.1.2 评测的过程 246

8.2 系列评测介绍 247

8.2.1 NIST系列评测 247

8.2.2 ACL-SIGHAN系列评测 249

8.2.3 863技术测评 249

8.2.4 中文信息学会评测 250

8.3 各领域技术评测介绍 250

8.3.1 中文分词和词性标注评测 250

8.3.2 词义消歧评测 255

8.3.3 句法分析评测 260

8.3.4 文本分类器性能评估 262

8.3.5 信息检索系统的评测 263

8.3.6 问答系统评测 265

8.3.7 信息抽取评测 267

8.3.8 自动文摘评测 270

8.4 习题 271

部分习题参考答案 272

参考文献 281

相关图书
作者其它书籍
返回顶部