当前位置:首页 > 工业技术
语言信息处理专论
语言信息处理专论

语言信息处理专论PDF电子书下载

工业技术

  • 电子书积分:18 积分如何计算积分?
  • 作 者:黄昌宁,夏莹主编
  • 出 版 社:清华大学出版社;广西科学技术出版社
  • 出版年份:1996
  • ISBN:7302019290
  • 页数:646 页
图书介绍:
《语言信息处理专论》目录

目录 1

目录 2

第1篇 汉语文本的分析与生成 2

基于评价的汉语自动分词系统的研究与实现 马晏 2

第1章 引言 3

1.1 问题的提出 3

1.2 书面汉语自动分词的目标 3

1.3 历史回顾 4

1.4 目前存在的问题 5

1.5 研究的目标 5

第2章 汉语自动分词的形式模型 6

2.1 切分的形式模型 6

2.2 切分歧义的类型 8

2.3 最大匹配法 9

2.4 全切分 10

2.6 本章小结 11

2.5 评价问题 11

第3章 汉语自动分词的评价层次 12

3.1 评价的提出 12

3.2 词典的作用 12

3.3 经验和统计的意义 13

3.4 句法和语义一级的评价 13

3.5 语境一级的评价 14

3.6 本章小结 14

第4章 词典的完备性与完全性 14

4.1 问题的提出 14

4.2 词典的完备性 14

4.3 词典的完全性 15

4.4 词典与分词标准的一致性 19

4.5 本章小结 19

5.1 主要算法回顾及切分盲点 20

第5章 自动分词策略 20

5.2 全切分算法 21

5.3 修剪问题 23

5.4 本章小结 26

第6章 几种评价参数 26

6.1 评价参数的意义 26

6.2 评价参数 27

6.3 本章小结 29

第7章 一个基于评价的自动分词系统SEG 30

7.1 系统组成 30

7.2 词典的构造 30

7.3 SEG的分词策略 32

7.4 切分效果分析 33

第8章 结束语 34

8.1 切分正确率问题 34

7.5 本章小结 34

8.2 自动分词系统的作用与发展 35

8.3 计算语言学的前景 35

参考文献 36

基于统计的汉语语料库词性自动标注的研究与实现 白栓虎 37

第1章 绪论 38

1.1 计算语言学的研究方法 38

1.2 语料库和基于语料库的方法 39

1.3 语料库词性标注及其意义 41

1.4 问题的描述 41

1.5 词性标注的研究方法及现状 43

1.6 本论文主要工作内容 44

第2章 语料库语法标记集的设计 44

2.1 制定标记集的标准和原则 44

2.2 汉语语料库词性标注标记集 45

2.1 粗分类特征的选择 48

2.3 对标记集所作的修改 48

2.4 本章小结 49

第3章 统计语言学模型 49

3.1 理论依据 50

3.2 n元语法(n-gram)及其实现方法 51

3.3 数据稀疏与插值马尔科夫模型 52

3.4 经验统计语言学模型 53

3.5 本章小结 53

第4章 标记选择 53

4.1 词性标注的动态规划算法 53

4.2 修正的Forward-Backward算法 55

4.3 对FB法输出的讨论 56

4.4 输出实例 57

4.5 本章小结 58

第5章 影响正确率的因素及词典空缺的处理 59

5.1 标注试验的方法 59

5.2 训练集的规模与同现标记对、词典的关系 59

5.3 模型中不同因素的地位 61

5.5 词典空缺处理策略 63

5.4 词典的作用和词典空缺 63

5.6 词典应具备的规模 65

5.7 推测实例 65

5.8 本章小结 66

第6章 系统的实现与测试 66

6.1 标记集和语料 67

6.2 MMCRT系统的组成 67

6.3 标注系统的词典 67

6.4 模型训练 69

6.5 标注模块 70

6.6 语料库管理 71

6.7 各种模型的测试 71

附录1 “八五”汉语语料库的词性标记集(1990年6月第二稿) 72

附录2 对第2章细类合并得到的大类(TAGSET2) 75

参考文献 76

汉语真实文本的语义自动标注 童翔 78

1.1 词语歧义及歧义排除 79

第1章 引言 79

1.2 语料库和语料库的标注 83

1.3 汉语的义项标注 84

第2章 汉语语义标注系统 86

2.1 资源 86

2.2 系统的组成和主要数据结构 89

2.3 系统工作流程 90

第3章 基于例子的汉语义项标注方法 91

3.1 MTD与实例库 91

3.2 基于实例的汉语义项标注算法 92

4.1 系统的评价 93

第4章 系统的评价与展望 93

4.2 系统的局限性及改进 94

4.3 今后工作的展望 96

结论 97

附录1 标注样本 98

附录2 《同义林词林》大类和中类的代码和分类名称 100

参考文献 101

汉语句法分析中的一种多扫描确定性算法及其在篇章理解中的应用 孙茂松 103

第1章 绪论 104

1.1 句法分析概述 104

1.2 篇章理解概述 107

1.3 句法分析与篇章理解的关系 108

1.4 本文的任务及内容 109

第2章 汉语中的兼类词、同形类组及其处理策略 109

2.1 兼类词、同形词组及同形类组 109

2.2 兼类词及其处理策略 112

2.3 同形类组及其处理策略 115

第3章 汉语句法分析的困难 120

3.1 困难之一——汉语句法结构之间界限模糊 120

3.2 困难之二——兼类词和同形类组 122

3.3 困难之三——差异的普遍性 122

3.4 困难之四——语义的引入 124

3.5 走出困境的几点措施 124

第4章 算法构思 127

4.1 算法宜采用确定性 129

4.2 控制策略:自底向上与数据驱动 129

4.3 从左向右、从右向左多次扫描 130

4.4 两个“贯穿” 137

第5章 算法及实验系统 138

5.1 数据结构 138

5.2 汉语句法分析的一种多扫描确定性算法 141

5.3 实验系统 144

6.1 一类典型军事情报的特点 145

第6章 典型军事情报的篇章理解 145

6.2 军事情报理解中的几个问题 146

6.3 程序实现 149

第7章 结束语 151

附录1 句法分析部分结果(单句) 151

附录2 句法分析部分结果(军事情报篇章) 160

附录3 一篇军事情报的内部表示(机器自动抽取) 163

参考文献 168

汉语句法分析的语料库方法研究 吴升 171

第1章 前言 172

第2章 对若干基于语料库的句法分析工作的评述 173

2.1 UCREL基于成分似然语法的分析系统 174

2.2 BSO基于依存语法的句法分析器 175

2.3 宾夕法尼亚大学的广义互信息方法 176

第3章 汉语依存语法及其依存关系的定义 177

3.1 关于汉语依存语法模型中的几个重要概念的说明 178

3.2 汉语依存语法模型及句法分析的形式化描述 184

第4章 知识获取和句法分析器的建造 187

4.1 人工标注的形式及知识获取的过程 187

4.2 系统的组成及简介 188

4.3 句法分析器的主要处理流程及其策略 190

4.4 两个实例分析 190

4.5 关于实现中若干细节的说明 192

4.6 关于开放性语料处理的讨论及途径 194

第5章 总结与展望 196

附录1 部分分析器的分析结果一览表 196

附录2 依存关系及代码一览表 198

附录3 部分义类类型及代码 200

附录4 词类类型及代码一览表 201

参考文献 202

基于合一的汉语句法分析系统的研究与实现 栾浩 203

前言 204

第1章 句法分析概论 204

1.1 句法分析技术的发展历史 204

1.2 句法分析技术的新发展 206

第2章 UBCP的基础语法理论和分析方法 206

2.1 基于合一的语法理论 206

2.2 Tomita算法 210

第3章 UBCP中存在的歧义问题及解决策略 213

3.1 汉语的语法特征 213

3.2 汉语分析中普遍存在着歧义问题 213

3.3 相应的解决策略 214

第4章 UBCP系统的基本设计思想 218

4.1 句法分析的功能 218

4.2 句法分析系统设计的一般原则 219

4.3 分析器的基本设计思想 220

5.1 电子词典 222

第5章 UBCP的知识库 222

5.2 语法规则库 226

5.3 电子词典的控制机制 229

5.4 规则库的控制机制 230

第6章 UBCP系统的实现 233

6.1 系统总体框图 233

6.2 规则库处理子系统 234

6.3 词典处理子系统 234

6.4 用户接口子系统 236

6.5 核心分析算法 237

6.6 实例分析 240

6.7 合一算法的讨论 241

7.2 UBCP系统评价 244

7.1 实验环境和实验结果 244

第7章 UBCP系统的实验结果和评价 244

结束语 245

附录1 本系统所用词语词类代码表 246

附录2 规则描写语言DRDL的书写规范 246

附录3 部分实验结果 250

参考文献 258

基于合一算法的汉语生成研究 李东 260

第1章 绪论 261

1.1 语言生成及其与理解的差别 261

1.2 单句生成概述 263

1.3 话语生成概述 264

1.4 话语生成中的单句生成 268

1.5 本文任务 268

2.1 一种句子意义的分析模式 269

第2章 汉语句子意义的一种语用语义描述 269

2.2 句子意义的一种语用语义描述 271

2.3 小结 278

第3章 汉语常用句式及其生成规律 278

3.1 汉语生成的特点 278

3.2 语义链 279

4.1 复杂特征集的引入 285

第4章 生成系统设计 285

3.3 小结 285

4.2 规则宜采用陈述性描述 287

4.3 基于合一的语法理论 287

4.4 FUG语法用于汉语生成 290

第5章 汉语句子生成实验系统的实现 295

5.1 数据结构 296

5.2 系统中定义的几个框架处理函数 300

5.3 生成算法 301

5.4 对生成中几个问题的探讨 302

5.5 结论 307

第6章 话语生成实验系统的设计与实现 307

6.1 系统的总体设计 308

6.2 知识库信息的存储和管理 309

6.3 话语规划 310

6.4 几个主要模块的程序实现 316

第7章 结束语 316

附录1 Fillmore对英语在不同时期的格表 318

附录2 汉语的格体系 318

附录3 汉语动词的态分类和态标记 322

附录4 名词语义体系(救火机器人话语生成系统) 324

附录5 DGSS的运行结果 324

参考文献 324

印刷体汉字识别的研究 朱夏宁 328

第2篇 汉字识别 328

第1章 引言 330

1.1 印刷体汉字识别研究工作的发展概况 330

1.2 印刷体汉字识别的困难和识别方法 331

1.3 印刷体汉字识别的候选集确定 331

1.4 印刷体汉字识别的字识别 333

第2章 印刷体汉字的特征选择 335

2.1 引言 335

2.2 印刷体汉字的特点 335

2.3 边框特征(部首) 335

2.4 局部特征(字根) 337

2.5 笔划端点和结点 337

2.6 本章小结 338

第3章 印刷体汉字结构特征的提取 338

3.1 笔划及其端点的提取 338

1.5 本章小结 339

3.3 印刷体汉字的部首提取 342

3.2 印刷体汉字的字根提取 342

第4章 印刷体汉字的结构统体特性及分析 346

3.4 本章小结 346

4.1 印刷体汉字周边特征的分析 347

4.2 印刷体汉字游程统计特性及分析 349

4.3 印刷体汉字笔划特性及分析 350

4.4 印刷体汉字的字根统计特性及分析 352

4.5 印刷体汉字部首分布的统计及分析 353

4.6 本章小结 357

第5章 实验性印刷体汉字识别系统 357

5.1 系统设计的一些考虑 357

5.2 系统的组成与工作过程 358

5.3 实验结果 360

结束语 362

参考文献 363

人工神经网络印刷汉字识别系统的研究 徐宁 365

第1章 绪论 367

2.1 印刷体汉字的特点 368

第2章 汉字识别的嵌套分层结构 368

2.2 汉字识别的嵌套分层结构 369

2.3 本章小结 371

第3章 基于人工神经网络的汉字特征提取 372

第4章 汉字识别自组织聚类人工神经网络 376

4.1 引言 376

4.2 汉字识别自组织聚类人工神经网络 377

4.3 实验结果与分析 381

4.4 本章小结 386

第5章 汉字细分类BP网络 386

5.1 汉字细分类RP网络结构 386

5.2 BP算法的改进 386

5.3 细分类网络训练样本的选择 387

第6章 基于协作模块神经网络的汉字识别方法 389

6.1 问题的提出 389

5.4 本章小结 389

6.2 协作模块神经网络 390

6.3 结论与实验结果 393

第7章 神经网络多体印刷汉字识别实验系统的实现 393

7.1 系统的组成和建立 394

7.2 实验结果 396

参考文献 397

联机手写汉字识别和印刷体汉字识别的研究与实践 杨德顺 401

第1章 联机手写汉字识别 402

1.1 联机手写汉字识别方法概述 402

1.2 手写汉字模式的形式化描述—汉字表达式 404

1.3 笔划有序列生成 407

1.4 汉字表达式的机器学习 410

1.5 联机手写汉字识别系统的实现 414

2.1 汉字特征点的定义及性质 418

第2章 印刷体汉字识别 418

2.2 汉字特征点的自动抽取 419

2.3 基于特征点的印刷体汉字识别模拟系统 423

附录1 局部结构分析法抽取笔划特征点的步骤示例 429

附录2 关键背景点抽取的步骤示例 434

附录3 局部结构分析法抽取笔划特征点的稳定性示例 437

附录4 局部结构分析法抽取笔划特征点程序运行实例 438

参考文献 442

手写印刷体汉字识别的研究 吴智彪 444

第1章 手写印刷体汉字识别概述 445

1.1 手写印刷体汉字识别的发展 445

1.2 识别手写印刷体的结构相似法 447

第2章 粗分类特征的选择和提取 448

2.2 汉字图象的多角形近似 450

2.3 实现投影的扫描线算法 451

2.4 四边框形状特征码的获取 451

2.5 本章小结 452

第3章 粗分类的实现 453

3.1 特征库的结构 453

3.2 搜索算法 454

3.3 粗分类结果的获取 454

3.4 本章小结 455

第4章 细分特征抽取——笔划段快速合并法 456

4.1 细化算法及多角形近似抽取笔划法的不足 456

4.2 近似多角形的特点 456

4.3 合并算法 457

第5章 一种新的图匹配法——相关属性关系图启发式匹配 458

4.4 本章小结 458

5.1 常用关系结构图匹配方法的问题 459

5.2 CARG的数学描述及启发式匹配算法 460

5.3 手写印刷体汉字图匹配的实现 462

5.4 匹配实例 465

5.5 本章小结 467

参考文献 467

手写汉字识别的研究 曾棋荣 470

第1章 引言 471

1.1 手写汉字识别的进展 471

1.2 手写汉字识别研究方向 473

1.3 本论文的主要工作 474

第2章 特征的选择和抽取 474

2.1 手写体汉字的特点 474

2.2 特征的选择与抽取 475

3.2 快速机器学习 479

第3章 粗分类及机器学习 479

3.1 粗分类 479

第4章 手写体汉字识别中的特征匹配判别 480

4.1 特征匹配判别的一般方法及问题 480

4.2 句法误差校正分析 480

4.3 动态规划算法求最短距离 481

4.4 实用扩散型动态规划法 482

4.5 迪杰斯特拉(Dijkstra)求最短距离算法的应用 482

4.6 实验结果和结论 483

第5章 交互式自学习脱机手写汉字识别系统 484

参考文献 484

第3篇 语言识别与合成 489

汉语语言识别的研究 李建民 489

第1章 语音识别的任务、困难及研究方向 491

第2章 语音识别技术VQ-HMM的简介 493

第3章 汉语语音识别的特点 496

第4章 基于汉语语音特点的识别方法(SVQ-SPM) 497

第5章 基于音节识别的词组语音识别 502

第6章 大词汇表汉语语音识别系统 504

第7章 结论与讨论 505

参考文献 506

汉语单音节识别研究 迟边进 509

第1章 综述 510

第2章 建立语音开发环境 511

2.1 实验设备 511

2.2 采样程序原理 512

2.3 语音视听软件 512

第3章 特征抽取与距离度量 513

3.1 距离度量与匹配算法 513

2.4 语音库的建立 513

3.2 距离度量实验 515

3.3 特征加权 515

3.4 小结 516

第4章 矢量量化与概率模型 517

4.1 矢量量化(VQ) 517

4.2 隐马尔可夫模型(HMM) 517

4.3 基于非线性分块的概率统计模型 517

(Nonlinear Blocking-based Probabilistic Statistics Model,简称NBPSM) 518

第5章 汉语单音节识别 519

5.1 语音库的特征提取 519

5.2 建码本与语音特征的矢量量化 520

5.3 NBPSM与HMM及动态规划匹配算法的比较 520

5.4 floor值对NBPSM的影响 520

5.5 特征加权在NBPSM中的使用 520

第6章 话者适应 521

5.6 无调单音节NBPSM识别实验 521

6.1 话者适应算法 522

6.2 话者自适应实验 524

6.3 新话者适应实验 524

第7章 基于韵母识别的单音节粗识别 525

7.1 韵母表 525

7.2 声母/韵母分割 526

7.3 粗识别实验 526

第8章 无调单音节识别及多字词识别 527

8.1 无调单音节识别 527

8.2 多字词识别 528

第9章 结束语 529

参考文献 529

神经元网络用于汉语单音节识别的研究 赵彤青 533

1.1 神经元的生理原型 534

第1章 神经元网络概述 534

1.2 人工神经元网络模型 535

第2章 错误回传算法 536

第3章 用神经元网络实现汉语声母识别 539

3.1 声母的类数考虑 539

3.2 网络的结构 539

3.3 LPC-CEP参数公式推导 540

3.4 神经网络第一级子网输入参数的计算 542

3.5 实验结果 542

参考文献 543

基于人工神经网络的汉语声母识别研究 曾迎凡 545

第1章 概述 546

1.1 基于人工神经网络语音识别的发展现状 546

1.2 汉语的特点与识别基元 547

1.3 汉语声母发音特点 547

2.1 语音信号预处理与端点检测(音节切分) 548

2.2 声、韵母的自动切分 548

第2章 汉语单音节的声韵母自动切分 548

第3章 人工神经网络简介 552

3.1 BP网络的模型 553

3.2 自组织特征映射网络模型 554

第4章 基于人工神经网络的语音识别 556

4.1 时间延时神经网络(TDNN) 557

4.2 一种时间延迟输入多层感知器 558

4.3 多级识别方法 559

第5章 一种声母识别的神经网络方法 560

5.1 声母的特征提取和特征加权 560

5.2 时间规整问题 560

5.3 自组织特征映射网络在粗分类中的应用 561

5.4 各级网络的训练 563

参考文献 568

大字表语音识别系统中的 杨柳扬 570

第1章 引言 571

第2章 N-Gram插值语言模型和准N-Gram语言模型 573

2.1 N-Gram插值语言模型 575

2.2 准N-Gram语言模型 577

第3章 实际语言模型的实现 578

3.1 Bigram插值模型 580

3.2 准Trigram插值模型 580

第4章 实验结果 581

4.1 复杂度估算分析 581

4.2 语言模型的预测能力实验分析 582

4.3 语音识别率测试实验 584

参考文献 586

汉语语音合成系统的研究 黄金法 586

第1章 语音合成研究发展概述 587

第2章 语音信号的声学性质 589

2.1 语音信号的产生机理 589

2.2 韵母 590

2.3 辅音 591

2.4 汉语普通话的音节结构 595

2.5 汉语声调的声学性质 598

第3章 语音合成数据库建立 599

3.1 语音合成算法的选取 599

3.2 音元选择 600

3.3 语音数据采集 602

3.4 音节的声调控制 604

参考文献 605

汉语文本-语音转换系统的研究与实现 马丹耕 607

第1章 语音合成技术概述 608

第2章 单音节合成系统 608

2.1 音元选择 609

2.2 音元数据库的建立和字-音转换 610

2.3 硬件 615

2.4 软件 617

第3章 汉语文本-语音转换系统的实现 624

第4章 结束语 626

参考文献 627

日语语音合成系统 王春凤 629

第1章 前言 630

第2章 日语语音的特征分析 630

2.1 日语的声学特征 630

2.2 日语单词音调 634

第3章 日语文本语音输出 640

3.1 日语文本分析 640

3.2 韵律控制 641

3.3 日语语音输出 642

3.4 日语文语转换系统的实现 644

第4章 系统存在的问题与改进方向 645

参考文献 646

返回顶部