目录 1
目录 2
第1篇 汉语文本的分析与生成 2
基于评价的汉语自动分词系统的研究与实现 马晏 2
第1章 引言 3
1.1 问题的提出 3
1.2 书面汉语自动分词的目标 3
1.3 历史回顾 4
1.4 目前存在的问题 5
1.5 研究的目标 5
第2章 汉语自动分词的形式模型 6
2.1 切分的形式模型 6
2.2 切分歧义的类型 8
2.3 最大匹配法 9
2.4 全切分 10
2.6 本章小结 11
2.5 评价问题 11
第3章 汉语自动分词的评价层次 12
3.1 评价的提出 12
3.2 词典的作用 12
3.3 经验和统计的意义 13
3.4 句法和语义一级的评价 13
3.5 语境一级的评价 14
3.6 本章小结 14
第4章 词典的完备性与完全性 14
4.1 问题的提出 14
4.2 词典的完备性 14
4.3 词典的完全性 15
4.4 词典与分词标准的一致性 19
4.5 本章小结 19
5.1 主要算法回顾及切分盲点 20
第5章 自动分词策略 20
5.2 全切分算法 21
5.3 修剪问题 23
5.4 本章小结 26
第6章 几种评价参数 26
6.1 评价参数的意义 26
6.2 评价参数 27
6.3 本章小结 29
第7章 一个基于评价的自动分词系统SEG 30
7.1 系统组成 30
7.2 词典的构造 30
7.3 SEG的分词策略 32
7.4 切分效果分析 33
第8章 结束语 34
8.1 切分正确率问题 34
7.5 本章小结 34
8.2 自动分词系统的作用与发展 35
8.3 计算语言学的前景 35
参考文献 36
基于统计的汉语语料库词性自动标注的研究与实现 白栓虎 37
第1章 绪论 38
1.1 计算语言学的研究方法 38
1.2 语料库和基于语料库的方法 39
1.3 语料库词性标注及其意义 41
1.4 问题的描述 41
1.5 词性标注的研究方法及现状 43
1.6 本论文主要工作内容 44
第2章 语料库语法标记集的设计 44
2.1 制定标记集的标准和原则 44
2.2 汉语语料库词性标注标记集 45
2.1 粗分类特征的选择 48
2.3 对标记集所作的修改 48
2.4 本章小结 49
第3章 统计语言学模型 49
3.1 理论依据 50
3.2 n元语法(n-gram)及其实现方法 51
3.3 数据稀疏与插值马尔科夫模型 52
3.4 经验统计语言学模型 53
3.5 本章小结 53
第4章 标记选择 53
4.1 词性标注的动态规划算法 53
4.2 修正的Forward-Backward算法 55
4.3 对FB法输出的讨论 56
4.4 输出实例 57
4.5 本章小结 58
第5章 影响正确率的因素及词典空缺的处理 59
5.1 标注试验的方法 59
5.2 训练集的规模与同现标记对、词典的关系 59
5.3 模型中不同因素的地位 61
5.5 词典空缺处理策略 63
5.4 词典的作用和词典空缺 63
5.6 词典应具备的规模 65
5.7 推测实例 65
5.8 本章小结 66
第6章 系统的实现与测试 66
6.1 标记集和语料 67
6.2 MMCRT系统的组成 67
6.3 标注系统的词典 67
6.4 模型训练 69
6.5 标注模块 70
6.6 语料库管理 71
6.7 各种模型的测试 71
附录1 “八五”汉语语料库的词性标记集(1990年6月第二稿) 72
附录2 对第2章细类合并得到的大类(TAGSET2) 75
参考文献 76
汉语真实文本的语义自动标注 童翔 78
1.1 词语歧义及歧义排除 79
第1章 引言 79
1.2 语料库和语料库的标注 83
1.3 汉语的义项标注 84
第2章 汉语语义标注系统 86
2.1 资源 86
2.2 系统的组成和主要数据结构 89
2.3 系统工作流程 90
第3章 基于例子的汉语义项标注方法 91
3.1 MTD与实例库 91
3.2 基于实例的汉语义项标注算法 92
4.1 系统的评价 93
第4章 系统的评价与展望 93
4.2 系统的局限性及改进 94
4.3 今后工作的展望 96
结论 97
附录1 标注样本 98
附录2 《同义林词林》大类和中类的代码和分类名称 100
参考文献 101
汉语句法分析中的一种多扫描确定性算法及其在篇章理解中的应用 孙茂松 103
第1章 绪论 104
1.1 句法分析概述 104
1.2 篇章理解概述 107
1.3 句法分析与篇章理解的关系 108
1.4 本文的任务及内容 109
第2章 汉语中的兼类词、同形类组及其处理策略 109
2.1 兼类词、同形词组及同形类组 109
2.2 兼类词及其处理策略 112
2.3 同形类组及其处理策略 115
第3章 汉语句法分析的困难 120
3.1 困难之一——汉语句法结构之间界限模糊 120
3.2 困难之二——兼类词和同形类组 122
3.3 困难之三——差异的普遍性 122
3.4 困难之四——语义的引入 124
3.5 走出困境的几点措施 124
第4章 算法构思 127
4.1 算法宜采用确定性 129
4.2 控制策略:自底向上与数据驱动 129
4.3 从左向右、从右向左多次扫描 130
4.4 两个“贯穿” 137
第5章 算法及实验系统 138
5.1 数据结构 138
5.2 汉语句法分析的一种多扫描确定性算法 141
5.3 实验系统 144
6.1 一类典型军事情报的特点 145
第6章 典型军事情报的篇章理解 145
6.2 军事情报理解中的几个问题 146
6.3 程序实现 149
第7章 结束语 151
附录1 句法分析部分结果(单句) 151
附录2 句法分析部分结果(军事情报篇章) 160
附录3 一篇军事情报的内部表示(机器自动抽取) 163
参考文献 168
汉语句法分析的语料库方法研究 吴升 171
第1章 前言 172
第2章 对若干基于语料库的句法分析工作的评述 173
2.1 UCREL基于成分似然语法的分析系统 174
2.2 BSO基于依存语法的句法分析器 175
2.3 宾夕法尼亚大学的广义互信息方法 176
第3章 汉语依存语法及其依存关系的定义 177
3.1 关于汉语依存语法模型中的几个重要概念的说明 178
3.2 汉语依存语法模型及句法分析的形式化描述 184
第4章 知识获取和句法分析器的建造 187
4.1 人工标注的形式及知识获取的过程 187
4.2 系统的组成及简介 188
4.3 句法分析器的主要处理流程及其策略 190
4.4 两个实例分析 190
4.5 关于实现中若干细节的说明 192
4.6 关于开放性语料处理的讨论及途径 194
第5章 总结与展望 196
附录1 部分分析器的分析结果一览表 196
附录2 依存关系及代码一览表 198
附录3 部分义类类型及代码 200
附录4 词类类型及代码一览表 201
参考文献 202
基于合一的汉语句法分析系统的研究与实现 栾浩 203
前言 204
第1章 句法分析概论 204
1.1 句法分析技术的发展历史 204
1.2 句法分析技术的新发展 206
第2章 UBCP的基础语法理论和分析方法 206
2.1 基于合一的语法理论 206
2.2 Tomita算法 210
第3章 UBCP中存在的歧义问题及解决策略 213
3.1 汉语的语法特征 213
3.2 汉语分析中普遍存在着歧义问题 213
3.3 相应的解决策略 214
第4章 UBCP系统的基本设计思想 218
4.1 句法分析的功能 218
4.2 句法分析系统设计的一般原则 219
4.3 分析器的基本设计思想 220
5.1 电子词典 222
第5章 UBCP的知识库 222
5.2 语法规则库 226
5.3 电子词典的控制机制 229
5.4 规则库的控制机制 230
第6章 UBCP系统的实现 233
6.1 系统总体框图 233
6.2 规则库处理子系统 234
6.3 词典处理子系统 234
6.4 用户接口子系统 236
6.5 核心分析算法 237
6.6 实例分析 240
6.7 合一算法的讨论 241
7.2 UBCP系统评价 244
7.1 实验环境和实验结果 244
第7章 UBCP系统的实验结果和评价 244
结束语 245
附录1 本系统所用词语词类代码表 246
附录2 规则描写语言DRDL的书写规范 246
附录3 部分实验结果 250
参考文献 258
基于合一算法的汉语生成研究 李东 260
第1章 绪论 261
1.1 语言生成及其与理解的差别 261
1.2 单句生成概述 263
1.3 话语生成概述 264
1.4 话语生成中的单句生成 268
1.5 本文任务 268
2.1 一种句子意义的分析模式 269
第2章 汉语句子意义的一种语用语义描述 269
2.2 句子意义的一种语用语义描述 271
2.3 小结 278
第3章 汉语常用句式及其生成规律 278
3.1 汉语生成的特点 278
3.2 语义链 279
4.1 复杂特征集的引入 285
第4章 生成系统设计 285
3.3 小结 285
4.2 规则宜采用陈述性描述 287
4.3 基于合一的语法理论 287
4.4 FUG语法用于汉语生成 290
第5章 汉语句子生成实验系统的实现 295
5.1 数据结构 296
5.2 系统中定义的几个框架处理函数 300
5.3 生成算法 301
5.4 对生成中几个问题的探讨 302
5.5 结论 307
第6章 话语生成实验系统的设计与实现 307
6.1 系统的总体设计 308
6.2 知识库信息的存储和管理 309
6.3 话语规划 310
6.4 几个主要模块的程序实现 316
第7章 结束语 316
附录1 Fillmore对英语在不同时期的格表 318
附录2 汉语的格体系 318
附录3 汉语动词的态分类和态标记 322
附录4 名词语义体系(救火机器人话语生成系统) 324
附录5 DGSS的运行结果 324
参考文献 324
印刷体汉字识别的研究 朱夏宁 328
第2篇 汉字识别 328
第1章 引言 330
1.1 印刷体汉字识别研究工作的发展概况 330
1.2 印刷体汉字识别的困难和识别方法 331
1.3 印刷体汉字识别的候选集确定 331
1.4 印刷体汉字识别的字识别 333
第2章 印刷体汉字的特征选择 335
2.1 引言 335
2.2 印刷体汉字的特点 335
2.3 边框特征(部首) 335
2.4 局部特征(字根) 337
2.5 笔划端点和结点 337
2.6 本章小结 338
第3章 印刷体汉字结构特征的提取 338
3.1 笔划及其端点的提取 338
1.5 本章小结 339
3.3 印刷体汉字的部首提取 342
3.2 印刷体汉字的字根提取 342
第4章 印刷体汉字的结构统体特性及分析 346
3.4 本章小结 346
4.1 印刷体汉字周边特征的分析 347
4.2 印刷体汉字游程统计特性及分析 349
4.3 印刷体汉字笔划特性及分析 350
4.4 印刷体汉字的字根统计特性及分析 352
4.5 印刷体汉字部首分布的统计及分析 353
4.6 本章小结 357
第5章 实验性印刷体汉字识别系统 357
5.1 系统设计的一些考虑 357
5.2 系统的组成与工作过程 358
5.3 实验结果 360
结束语 362
参考文献 363
人工神经网络印刷汉字识别系统的研究 徐宁 365
第1章 绪论 367
2.1 印刷体汉字的特点 368
第2章 汉字识别的嵌套分层结构 368
2.2 汉字识别的嵌套分层结构 369
2.3 本章小结 371
第3章 基于人工神经网络的汉字特征提取 372
第4章 汉字识别自组织聚类人工神经网络 376
4.1 引言 376
4.2 汉字识别自组织聚类人工神经网络 377
4.3 实验结果与分析 381
4.4 本章小结 386
第5章 汉字细分类BP网络 386
5.1 汉字细分类RP网络结构 386
5.2 BP算法的改进 386
5.3 细分类网络训练样本的选择 387
第6章 基于协作模块神经网络的汉字识别方法 389
6.1 问题的提出 389
5.4 本章小结 389
6.2 协作模块神经网络 390
6.3 结论与实验结果 393
第7章 神经网络多体印刷汉字识别实验系统的实现 393
7.1 系统的组成和建立 394
7.2 实验结果 396
参考文献 397
联机手写汉字识别和印刷体汉字识别的研究与实践 杨德顺 401
第1章 联机手写汉字识别 402
1.1 联机手写汉字识别方法概述 402
1.2 手写汉字模式的形式化描述—汉字表达式 404
1.3 笔划有序列生成 407
1.4 汉字表达式的机器学习 410
1.5 联机手写汉字识别系统的实现 414
2.1 汉字特征点的定义及性质 418
第2章 印刷体汉字识别 418
2.2 汉字特征点的自动抽取 419
2.3 基于特征点的印刷体汉字识别模拟系统 423
附录1 局部结构分析法抽取笔划特征点的步骤示例 429
附录2 关键背景点抽取的步骤示例 434
附录3 局部结构分析法抽取笔划特征点的稳定性示例 437
附录4 局部结构分析法抽取笔划特征点程序运行实例 438
参考文献 442
手写印刷体汉字识别的研究 吴智彪 444
第1章 手写印刷体汉字识别概述 445
1.1 手写印刷体汉字识别的发展 445
1.2 识别手写印刷体的结构相似法 447
第2章 粗分类特征的选择和提取 448
2.2 汉字图象的多角形近似 450
2.3 实现投影的扫描线算法 451
2.4 四边框形状特征码的获取 451
2.5 本章小结 452
第3章 粗分类的实现 453
3.1 特征库的结构 453
3.2 搜索算法 454
3.3 粗分类结果的获取 454
3.4 本章小结 455
第4章 细分特征抽取——笔划段快速合并法 456
4.1 细化算法及多角形近似抽取笔划法的不足 456
4.2 近似多角形的特点 456
4.3 合并算法 457
第5章 一种新的图匹配法——相关属性关系图启发式匹配 458
4.4 本章小结 458
5.1 常用关系结构图匹配方法的问题 459
5.2 CARG的数学描述及启发式匹配算法 460
5.3 手写印刷体汉字图匹配的实现 462
5.4 匹配实例 465
5.5 本章小结 467
参考文献 467
手写汉字识别的研究 曾棋荣 470
第1章 引言 471
1.1 手写汉字识别的进展 471
1.2 手写汉字识别研究方向 473
1.3 本论文的主要工作 474
第2章 特征的选择和抽取 474
2.1 手写体汉字的特点 474
2.2 特征的选择与抽取 475
3.2 快速机器学习 479
第3章 粗分类及机器学习 479
3.1 粗分类 479
第4章 手写体汉字识别中的特征匹配判别 480
4.1 特征匹配判别的一般方法及问题 480
4.2 句法误差校正分析 480
4.3 动态规划算法求最短距离 481
4.4 实用扩散型动态规划法 482
4.5 迪杰斯特拉(Dijkstra)求最短距离算法的应用 482
4.6 实验结果和结论 483
第5章 交互式自学习脱机手写汉字识别系统 484
参考文献 484
第3篇 语言识别与合成 489
汉语语言识别的研究 李建民 489
第1章 语音识别的任务、困难及研究方向 491
第2章 语音识别技术VQ-HMM的简介 493
第3章 汉语语音识别的特点 496
第4章 基于汉语语音特点的识别方法(SVQ-SPM) 497
第5章 基于音节识别的词组语音识别 502
第6章 大词汇表汉语语音识别系统 504
第7章 结论与讨论 505
参考文献 506
汉语单音节识别研究 迟边进 509
第1章 综述 510
第2章 建立语音开发环境 511
2.1 实验设备 511
2.2 采样程序原理 512
2.3 语音视听软件 512
第3章 特征抽取与距离度量 513
3.1 距离度量与匹配算法 513
2.4 语音库的建立 513
3.2 距离度量实验 515
3.3 特征加权 515
3.4 小结 516
第4章 矢量量化与概率模型 517
4.1 矢量量化(VQ) 517
4.2 隐马尔可夫模型(HMM) 517
4.3 基于非线性分块的概率统计模型 517
(Nonlinear Blocking-based Probabilistic Statistics Model,简称NBPSM) 518
第5章 汉语单音节识别 519
5.1 语音库的特征提取 519
5.2 建码本与语音特征的矢量量化 520
5.3 NBPSM与HMM及动态规划匹配算法的比较 520
5.4 floor值对NBPSM的影响 520
5.5 特征加权在NBPSM中的使用 520
第6章 话者适应 521
5.6 无调单音节NBPSM识别实验 521
6.1 话者适应算法 522
6.2 话者自适应实验 524
6.3 新话者适应实验 524
第7章 基于韵母识别的单音节粗识别 525
7.1 韵母表 525
7.2 声母/韵母分割 526
7.3 粗识别实验 526
第8章 无调单音节识别及多字词识别 527
8.1 无调单音节识别 527
8.2 多字词识别 528
第9章 结束语 529
参考文献 529
神经元网络用于汉语单音节识别的研究 赵彤青 533
1.1 神经元的生理原型 534
第1章 神经元网络概述 534
1.2 人工神经元网络模型 535
第2章 错误回传算法 536
第3章 用神经元网络实现汉语声母识别 539
3.1 声母的类数考虑 539
3.2 网络的结构 539
3.3 LPC-CEP参数公式推导 540
3.4 神经网络第一级子网输入参数的计算 542
3.5 实验结果 542
参考文献 543
基于人工神经网络的汉语声母识别研究 曾迎凡 545
第1章 概述 546
1.1 基于人工神经网络语音识别的发展现状 546
1.2 汉语的特点与识别基元 547
1.3 汉语声母发音特点 547
2.1 语音信号预处理与端点检测(音节切分) 548
2.2 声、韵母的自动切分 548
第2章 汉语单音节的声韵母自动切分 548
第3章 人工神经网络简介 552
3.1 BP网络的模型 553
3.2 自组织特征映射网络模型 554
第4章 基于人工神经网络的语音识别 556
4.1 时间延时神经网络(TDNN) 557
4.2 一种时间延迟输入多层感知器 558
4.3 多级识别方法 559
第5章 一种声母识别的神经网络方法 560
5.1 声母的特征提取和特征加权 560
5.2 时间规整问题 560
5.3 自组织特征映射网络在粗分类中的应用 561
5.4 各级网络的训练 563
参考文献 568
大字表语音识别系统中的 杨柳扬 570
第1章 引言 571
第2章 N-Gram插值语言模型和准N-Gram语言模型 573
2.1 N-Gram插值语言模型 575
2.2 准N-Gram语言模型 577
第3章 实际语言模型的实现 578
3.1 Bigram插值模型 580
3.2 准Trigram插值模型 580
第4章 实验结果 581
4.1 复杂度估算分析 581
4.2 语言模型的预测能力实验分析 582
4.3 语音识别率测试实验 584
参考文献 586
汉语语音合成系统的研究 黄金法 586
第1章 语音合成研究发展概述 587
第2章 语音信号的声学性质 589
2.1 语音信号的产生机理 589
2.2 韵母 590
2.3 辅音 591
2.4 汉语普通话的音节结构 595
2.5 汉语声调的声学性质 598
第3章 语音合成数据库建立 599
3.1 语音合成算法的选取 599
3.2 音元选择 600
3.3 语音数据采集 602
3.4 音节的声调控制 604
参考文献 605
汉语文本-语音转换系统的研究与实现 马丹耕 607
第1章 语音合成技术概述 608
第2章 单音节合成系统 608
2.1 音元选择 609
2.2 音元数据库的建立和字-音转换 610
2.3 硬件 615
2.4 软件 617
第3章 汉语文本-语音转换系统的实现 624
第4章 结束语 626
参考文献 627
日语语音合成系统 王春凤 629
第1章 前言 630
第2章 日语语音的特征分析 630
2.1 日语的声学特征 630
2.2 日语单词音调 634
第3章 日语文本语音输出 640
3.1 日语文本分析 640
3.2 韵律控制 641
3.3 日语语音输出 642
3.4 日语文语转换系统的实现 644
第4章 系统存在的问题与改进方向 645
参考文献 646