第1章 绪论 1
1.1 概述 1
1.2 语音信号处理的发展及应用 2
1.3 语音编码算法综述 3
1.4 语音编码标准的发展 6
第2章 数字语音处理基础 7
2.1 发音的生理器官与过程 7
2.2 听觉的生理器官与心理 9
2.2.1 听觉系统 9
2.2.2 语音的听觉心理 13
2.2.3 掩蔽效应 15
2.3 语音和语言 18
2.4 语音学基础及汉语语音学 20
2.4.1 声波的物理描述 20
2.4.2 语音的声学特性 21
2.4.3 汉语语音基本特性 24
2.5 语音信号的特性分析 25
2.5.1 语音的时间波形特性 25
2.5.2 语音信号的语谱图 27
2.5.3 语音信号的统计特性 28
第3章 语音信号的模型 29
3.1 声在声管中的传播特性 29
3.2 语音信号的无损声管模型 30
3.2.1 嘴唇端 32
3.2.2 声门端 32
3.3 级联无损声管与数字滤波器的关系 33
3.4 无损声管模型的传递函数 35
3.5 语音信号的数字模型 38
3.6 语音信号的共振峰模型 41
3.6.1 级联型共振峰模型 42
3.6.2 并联型共振峰模型 43
3.6.3 混合型共振峰模型 43
3.7 语音信号的非线性模型 44
3.7.1 调频-调幅模型的基本原理 45
3.7.2 Teager能量算子 45
3.7.3 能量分离算法 46
3.7.4 调频-调幅模型的应用 47
第4章 语音信号的时域分析 50
4.1 概述 50
4.2 语音信号的数字化与预处理 50
4.2.1 预滤波、A/D转换 51
4.2.2 预处理 52
4.2.3 窗函数的作用 52
4.3 短时能量和短时平均幅度 55
4.3.1 短时能量 55
4.3.2 短时平均幅度 56
4.4 短时平均过零率和上升过零间隔 58
4.4.1 短时平均过零率 58
4.4.2 短时上升过零间隔 59
4.5 短时自相关函数和短时平均幅度差函数 60
4.5.1 短时自相关函数 60
4.5.2 语音信号的短时自相关函数 61
4.5.3 修正的短时自相关函数 62
4.5.4 短时平均幅度差函数 63
4.6 短时时域处理技术的应用 65
4.6.1 语音端点检测 65
4.6.2 基音周期估计 65
4.7 中值滤波在语音短时时域处理中的应用 67
第5章 语音信号的频域分析 71
5.1 概述 71
5.2 基于滤波器组的频域分析 71
5.3 短时Fourier变换的定义和性质 72
5.3.1 STFT的定义 72
5.3.2 窗函数及窗宽对STFT的影响 73
5.3.3 结论 74
5.4 STFT的实现 75
5.5 短时Fourier谱的取样 76
5.5.1 时域取样 76
5.5.2 频域取样 77
5.5.3 时域和频域的总取样 77
5.6 语音的短时合成技术 78
5.6.1 滤波器组相加法 78
5.6.2 叠接相加法 80
5.7 基于FFT的短时Fourier分析 82
5.8 频域基音检测 83
5.8.1 谐波峰值基音检测法 83
5.8.2 频谱相似度基音检测法 84
5.9 语音信号的时-频表示 85
5.9.1 传统Fourier变换的缺点及时-频分析思想 85
5.9.2 信号的时-频表示 86
5.9.3 不确定性原理 88
5.9.4 Gabor变换 89
5.9.5 小波变换及在语音中的应用 91
第6章 语音信号的同态分析 98
6.1 概述 98
6.2 广义叠加原理 98
6.3 卷积同态系统 99
6.4 复倒谱和倒谱 101
6.5 类语音信号的复倒谱分析 103
6.5.1 有理z变换序列 103
6.5.2 脉冲序列 104
6.6 复倒谱的计算方法 104
6.6.1 按复倒谱定义计算 104
6.6.2 最小相位序列的复倒谱的计算 107
6.6.3 复对数求导数计算法 108
6.6.4 递推计算方法 109
6.7 语音信号的倒谱分析 110
第7章 语音信号的线性预测分析 113
7.1 概述 113
7.2 LPC的基本原理 113
7.2.1 信号模型 113
7.2.2 LPC误差滤波 115
7.2.3 语音信号的LPC分析 118
7.3 LPC分析的解法 119
7.3.1 自相关法 120
7.3.2 协方差法 122
7.3.3 自相关法与协方差法的比较 124
7.4 格型法及其改进 124
7.4.1 格型法基本原理 125
7.4.2 格型法求解 127
7.4.3 各种LPC分析方法的比较 131
7.5 LPC的频域特性 132
7.5.1 最小预测误差的频域解释 132
7.5.2 LPC谱估计 133
7.5.3 LPC倒谱 135
7.6 线谱对分析 136
7.6.1 线谱对分析原理 136
7.6.2 线谱对分析解法 139
7.7 LPC的几种推演参数 140
第8章 语音信号的矢量量化 142
8.1 概述 142
8.2 矢量量化的基本原理 142
8.3 矢量量化的失真测度 144
8.3.1 Euclid距离失真测度 145
8.3.2 线性预测失真测度 145
8.3.3 识别失真测度 146
8.4 矢量量化器的最佳码书设计 147
8.4.1 LBG算法 147
8.4.2 初始码书的生成 148
8.5 无记忆矢量量化器 149
8.6 有记忆矢量量化器 151
8.7 语音波形的矢量量化 153
8.8 语音参数的矢量量化 154
第9章 线性预测声码器 156
9.1 概述 156
9.1.1 语音压缩的基本原理 156
9.1.2 语音编码的关键技术 158
9.2 LPC声码器的基本原理 159
9.3 LPC-10声码器 161
9.3.1 发端编码器 161
9.3.2 收端解码器 166
9.3.3 LPC-10声码器存在的问题 167
9.4 增强型LPC-10声码器 167
9.4.1 激励源的改善 167
9.4.2 基音提取方法的改进 169
9.4.3 声道滤波器参数量化的改进 169
9.4.4 LSF参数的矢量量化 170
9.5 混合激励线性预测声码器 171
9.5.1 MELP声码器编码原理 171
9.5.2 MELP声码器解码原理 178
第10章 合成-分析线性预测声码器 183
10.1 概述 183
10.2 合成-分析LPC声码器的基本思想 183
10.3 多脉冲激励LPC声码器 185
10.3.1 多脉冲激励LPC声码器的原理 185
10.3.2 最佳激励参数的估计 185
10.3.3 准最优顺序的优化 187
10.4 规则脉冲激励LPC声码器 188
10.4.1 规则脉冲激励LPC声码器的原理 188
10.4.2 规则脉冲激励序列 188
10.4.3 规则脉冲激励序列最佳相位和幅值估计 189
10.4.4 RPE编码器的简化算法 190
10.5 码激励线性预测声码器 192
10.5.1 CELP编码原理 192
10.5.2 CELP码书搜索算法 193
10.6 GSM 13 kbit/s RPE-LTP语音编码 194
10.6.1 GSM 13kbit/s RPE-LTP编码器原理 195
10.6.2 GSM 13kbit/s RPE-LTP解码器原理 201
10.7 语音编码美国联邦标准FED-STD 1016 202
10.7.1 FED-STD 1016基本原理 203
10.7.2 随机码书 203
10.7.3 自适应码书 204
10.7.4 自适应码字的编码和增益 205
10.7.5 FED-STD 1016 CELP编码器特征 205
10.8 CCITT 16kbit/s语音编码标准G.728 207
10.8.1 低时延码激励线性预测编/解码器原理 207
10.8.2 高阶后向自适应线性预测 209
10.8.3 感觉加权滤波器 210
10.8.4 激励增益适配器 211
10.8.5 码书结构与搜索 211
10.8.6 同步和带内信令 216
10.8.7 自适应后置滤波器 216
10.8.8 G.728编/解码器的复杂度和性能 219
10.9 8kbit/s共轭结构代数码激励LPC声码器G.729 220
10.9.1 ITU-T G.729概述 220
10.9.2 编码器功能描述 222
10.9.3 解码器功能说明 235
10.10 G.723.1双速率多媒体通信传输语音编码器 239
10.10.1 G.723.1编码器原理 240
10.10.2 G.723.1解码器原理 248
第11章 多带激励声码器 252
11.1 概述 252
11.2 多带激励语音模型 252
11.3 多带激励语音分析 255
11.3.1 频域分析 255
11.3.2 时域分析 257
11.3.3 INMARSAT-M改进MBE模型分析算法 260
11.4 多带激励语音合成 267
11.4.1 清音成分的合成 267
11.4.2 浊音成分的合成 268
11.4.3 重建语音的产生 270
第12章 语音波形编码 271
12.1 概述 271
12.2 脉冲编码调制 271
12.2.1 均匀量化PCM 271
12.2.2 对数量化PCM 272
12.2.3 自适应量化PCM 274
12.3 自适应预测编码 276
12.3.1 基本的APC系统 276
12.3.2 前馈与反馈APC 277
12.3.3 音调预测 279
12.3.4 噪声谱形变 280
12.3.5 差分PCM与G.726 282
12.4 频域编码 284
12.4.1 自适应变换编码 284
12.4.2 子带编码 287
12.5 G.722宽带语音编码 291
12.5.1 概述 291
12.5.2 SB-ADPCM编码器 292
12.5.3 SB-ADPCM解码器 293
12.5.4 正交镜像滤波器组 294
12.5.5 G.722自适应量化与预测 299
第13章 语音编码器的质量评价 303
13.1 语音质量的定义 303
13.2 语音质量的客观测量 305
13.3 语音质量的主观测量 306
13.4 汉语清晰度测量和语音质量的诊断 307
13.5 典型MOS试验的描述 309
13.6 确认语音编码器实现的方法 311
13.7 复杂度和时延的测量 311
第14章 语音增强 313
14.1 概述 313
14.2 语音特性、人耳感知特性和噪声特性 314
14.3 谐波语音增强 316
14.4 短时谱估计语音增强 316
14.4.1 噪声对消法 317
14.4.2 短时谱估计 318
14.4.3 谱相减法 318
14.4.4 Weiner滤波 319
14.4.5 短时谱幅度的最小方均误差估计 321
14.5 信号子空间语音增强 322
14.5.1 信号和噪声的线性模型和子空间描述 323
14.5.2 语音信号线性估计器 324
14.6 语音生成模型的语音增强 327
14.6.1 LPC全极点模型的语音增强 327
14.6.2 最大后验概率估计法 328
14.6.3 Kalman滤波法 328
14.7 其他语音增强算法 329
参考文献 332