前言 1
第一章 绪论 1
1.1 概述 1
1.2 语音信号数字处理的应用 1
1.3 语音信号数字处理的基础理论和算法 2
1.4 语音信号数字处理的硬件和实用系统 3
1.5 全书的组织 3
第二章 语音信号的数字表示,基本组成单位、产生模型和短时分析技术 4
2.1 概述 4
2.2 语音信号的时域波形 4
2.3 发声器官 6
2.4 音素与音节 8
2.5 语音信号的“短时谱”、“语谱图”以及元音和辅音的特点 9
2.6 韵母 13
2.7 声母 16
2.8 基音与四声 20
2.9 语音信号产生模型 21
2.10 语音信号数字处理中的短时分析技术 24
2.11 语音信号的短时自关函数和短时频谱 27
2.12 短时基音周期估计 29
参考文献 33
第三章 听觉系统和语音感知 34
3.1 概述 34
3.2 听觉系统生理学 34
3.3 听觉特性 40
参考文献 47
第四章 语音信号的同态处理与线性预测编码(LPC)分析 48
4.1 概述 48
4.2 同态信号处理的基本原理 49
4.3 复倒谱和倒谱的特点 53
4.4 求复倒谱和倒谱的实用算法 54
4.5 同态信号处理在语音信号数字处理中的应用 59
4.6 线性预测编码(LPC)分析的基本概念 62
4.7 LPC正则方程组的自关解法和自协方差解法 66
4.8 用自关法解LPC正则方程的德宾(Durbin)递推算法、格形算法和舒尔(Sehur)递推算法 69
4.9 LPC模型阶数P和激励增益G的确定,短时分析对于LPC参数估计的影响,LPC分析的频域说明 80
4.10 各种LPC参数以及它们之间的关系 83
参考文献 90
第五章 矢量量化(VQ) 91
5.1 概述 91
5.2 无记忆VQ及其码本形成的LBC算法 92
5.3 特征矢量和畸变准则的选择 95
5.4 无记忆VQ系统中减少搜索量、存储量和码本形成中训练量的各种算法 100
5.5 有记忆的VQ系统 104
5.6 全搜索VQ系统中的快速搜索算法 106
5.7 用随机松驰和模拟退火方法解决VQ码本形成算法中平均畸变值陷入局部最小点的问题 109
5.8 人工神经网络与VQ 116
参考文献 127
第六章 隐含马尔可夫模型(HMM) 129
6.1 概述 129
6.2 y为一维矢量且具有连续正态概率分布函数时HMM系统三项问题的解 130
6.3 y为多维矢量且具有连续正态概率分布函数的HMM系统三项问题的解 138
6.4 y为多维矢量且其概率密度函数为若干正态分布函数线性相加时三项问题的解 141
6.5 离散和半连续HMM系统 144
6.6 语音处理和识别系统中HMM系统输出矢量y的选择 149
6.7 HMM的各种结构类型 152
6.8 求解HMM三项问题时的一些具体计算问题 155
6.9 两个HMM相似度的比较 160
参考文献 161
7.2 语音编码的性能及其提高的途径 163
第七章 语音信号的波形编码 163
7.1 概述 163
7.3 语音信号的标量量化 171
7.4 自适应差分脉码调制(ADPCM) 186
7.5 子带编码(SBC) 200
7.6 变换域编码(TC) 211
参考文献 222
第八章 语音信号的参数编码与混合编码 225
8.1 概述 225
8.2 线性预测(LPC)声码器 229
8.3 多脉冲激励及规则脉冲激励线性预测(MPE-LPC及RPE-LPC)声码器 239
8.4 码激励线性预测(CELP)声码器 251
8.5 多带激励(MBE)声码器 265
参考文献 283
9.1 概述 287
第九章 语音合成 287
9.2 语音产生的声学模型与合成器 291
9.3 普通话音节的合成框架及其实现 301
9.4 浊音声源的动态特性和普通话的字调模型 305
9.5 普通话音节的合成 308
9.6 协同发音与普通话词语的合成 315
9.7 韵律规则与普通话词语的合成 319
9.8 文-语转换系统 323
参考文献 327
第十章 语音识别 330
10.1 概述 330
10.2 孤立词识别系统 335
10.3 连接词识别系统 340
10.4 采用HMM算法框架的连续语音识别 347
10.5 HMM统一框架连续语音识别系统中最佳路径搜索算法 349
10.6 HMM统一框架连续语音识别系统中声学-语音学层的设计 353
10.7 HMM统一框架连续语音识别系统中的句法层设计和语言模型的建立 360
10.8 说话人自适应(Speaker Adaption) 368
10.9 关键词确认(Keyword Spotting) 379
参考文献 382
第十一章 语音增强 385
11.1 语音增强的目的 385
11.2 语音和噪声的特性 386
11.3 语音增强算法概述 389
11.4 基于语音生成模型的增强算法 391
11.5 基于短时谱幅度估计的方法 396
11.6 短时谱幅度的MMSE估计方法 401
11.7 语音增强效果测试方法及实验结果 407
参考文献 410
12.2 说话人识别的基本问题 412
第十二章 说话人识别 412
12.1 概述 412
12.3 表征说话人特点的基本特征 415
12.4 说话人识别的几种方法 418
参考文献 425
第十三章 人工神经网络在语音信号处理中的应用 426
13.1 概述 426
13.2 人工神经网络初步 427
13.3 人工神经网络语音识别 435
13.4 人工神经网络说话人识别 442
13.5 人工神经网络语音合成 443
13.6 人工神经网络关键词识别 444
13.7 人工神经网络在语音信号处理其它领域中的应用 447
参考文献 450