第1篇 语音信号处理基础 1
第1章 绪论 1
1.1 语音信号处理概述 1
1.2 语音信号处理的发展概况 3
1.3 本书的内容 5
第2章 基础知识 6
2.1 概述 6
2.2 语音产生的过程 6
2.3 语音信号的特性 9
2.4 语音信号产生的数字模型 15
2.5 语音感知 21
第2篇 语音信号分析 23
第3章 时域分析 23
3.1 概述 23
3.2 数字化和预处理 24
3.3 短时能量分析 27
3.4 短时过零分析 31
3.5 短时相关分析 34
第4章 短时傅里叶分析 41
4.1 概述 41
4.2 短时傅里叶变换 41
4.3 短时傅里叶变换的取样率 48
4.4 语音信号的短时综合 49
4.5 语谱图 54
第5章 同态滤波及倒谱分析 56
5.1 概述 56
5.2 同态信号处理的基本原理 56
5.3 复倒谱和倒谱 58
5.4 两个卷积分量复倒谱的性质 59
5.5 避免相位卷绕的算法 61
5.6 语音信号复倒谱分析实例 66
第6章 线性预测分析 69
6.1 概述 69
6.2 线性预测分析的基本原理 69
6.3 线性预测方程组的建立 72
6.4 线性预测分析的解法(1)——自相关法和协方差法 73
6.5 线性预测分析的解法(2)——格型法 78
6.6 线性预测分析应用——LPC谱估计和LPC复倒谱 83
6.7 线谱对(LSP)分析 88
6.8 极零模型 91
第7章 矢量量化 93
7.1 概述 93
7.2 矢量量化的基本原理 94
7.3 失真测度 96
7.4 最佳矢量量化器和码本的设计 98
7.5 降低复杂度的矢量量化系统 101
7.6 语音参数的矢量量化 105
第8章 隐马尔可夫模型(HMM) 107
8.1 概述 107
8.2 隐马尔可夫模型的引入 108
8.3 隐马尔可夫模型的定义 110
8.4 隐马尔可夫模型三项问题的求解 112
8.5 HMM的一些实际问题 115
第9章 语音检测分析 117
9.1 基音检测 117
9.2 共振峰估值 127
第3篇 语音信号处理技术与应用第10章 语音编码(1)——波形编码 135
10.1 概述 135
10.2 语音信号的压缩编码原理 137
10.3 脉冲编码调制(PCM)及其自适应 139
10.4 预测编码及其自适应APC 143
10.5 自适应差分脉冲编码调制(ADPCM)及自适应增量调制(ADM) 146
10.6 子带编码(SBC) 148
10.7 自适应变换编码(ATC) 151
第11章 语音编码(2)——声码器技术及混合编码 154
11.1 概述 154
11.2 声码器的基本结构 155
11.3 相位声码器和通道声码器 156
11.4 同态声码器 159
11.5 线性预测声码器 162
11.6 混合编码 164
11.7 各种语音编码方法的比较及语音编码研究方向 169
11.8 语音编码的性能指标和质量评价 171
第12章 语音合成 174
12.1 概述 174
12.2 语音合成原理 176
12.3 共振峰合成 178
12.4 线性预测合成 181
12.5 专用语音合成硬件及语音合成器芯片 184
第13章 语音识别 188
13.1 概述 188
13.2 语音识别原理 191
13.3 动态时间规整 195
13.4 有限状态矢量量化技术 198
13.5 孤立词识别系统 200
13.6 连续语音识别 204
13.7 听觉视觉双模态语音识别(AVSR) 207
第14章 说话人识别 209
14.1 概述 209
14.2 特征选取 210
14.3 说话人识别系统的结构 212
14.4 说话人识别中的识别方法 213
第15章 语音增强 217
15.1 概述 217
15.2 语音特性、人耳感知特性及噪声特性 218
15.3 滤波器法 220
15.4 非线性处理 221
15.5 减谱法 222
15.6 自相关相减法 225
15.7 自适应噪声对消 225
15.8 基于子波分析技术的语音增强简介 229
第16章 人工神经网络的应用 231
16.1 概述 231
16.2 神经网络的基本概念 232
16.3 神经网络的模型结构 234
16.4 神经网络与传统方法的结合 239
16.5 神经网络语音合成 242
16.6 神经网络语音识别 243
16.7 神经网络说话人识别 246
16.8 神经网络语音增强 248
第17章 语音信号处理中的新兴与前沿技术 249
17.1 混沌理论的应用 249
17.2 分形理论的应用 257
17.3 支持向量机(SVM)在语音识别和说话人识别中的应用 262
17.4 语音信号的非线性预测(NLP)编码 267
汉英名词术语对照 271
参考文献 279