第1 章绪论 1
1.1 概述 1
1.2 语音处理的研究方法 2
1.3 语音处理的应用 2
1.3.1 语音压缩编码 3
1.3.2 语音识别 3
1.3.3 说话人识别 4
1.3.4 语音理解 4
1.3.5 语音合成 5
1.3.6 语音增强 5
1.4 本书的内容与组织 6
1.5 习题 6
第2章 语音信号处理基础 7
2.1 语音的波形及特性 7
2.2 语音的产生 9
2.2.1 发声器官 9
2.2.2 清音、浊音和爆破音 9
2.2.3 基音频率 10
2.2.4 共振峰 10
2.2.5 语谱图 11
2.3 汉语语音的基本特性 11
2.3.1 声母和韵母 11
2.3.2 元音和辅音 13
2.3.3 汉语的四声 13
2.4 语音信号的简化数字模型 14
2.5 听觉系统和听觉特性 16
2.5.1 听觉系统 16
2.5.2 听觉特性 17
2.6 小结 18
2.7 习题 18
第3章 语音信号的时域分析 19
3.1 概述 19
3.2 语音短时分析技术 19
3.3 短时能量和平均幅度 21
3.4 短时平均过零率 24
3.5 短时自相关分析 26
3.5.1 短时自相关函数 26
3.5.2 语音信号的短时自相关函数 27
3.5.3 修正的短时自相关函数 29
3.6 语音端点检测 30
3.7 基音周期估计 31
3.7.1 基于短时自相关函数的基音周期估计 32
3.7.2 基于短时平均幅度差函数(AMDF)的基音周期估计 33
3.8 小结 34
3.9 习题 34
第4章 语音信号的变换域分析 36
4.1 语音信号的频域分析 36
4.1.1 短时傅里叶变换 36
4.1.2 短时傅里叶反变换 42
4.1.3 语谱图 44
4.1.4 频域分析应用——频域基音检测 45
4.2 语音信号的同态处理 47
4.2.1 卷积同态系统 47
4.2.2 复倒谱和倒谱 49
4.2.3 复倒谱分析 50
4.2.4 复倒谱与倒谱的计算 51
4.2.5 同态处理应用——同态声码器 54
4.3 语音信号的非线性处理 58
4.3.1 小波变换及应用 58
4.3.2 混沌、分形处理及应用 66
4.4 分形内插语音编码算法 71
4.4.1 分形插值函数 72
4.4.2 参数选择 72
4.4.3 系统设计 73
4.5 小结 74
4.6 习题 74
第5章 语音信号线性预测分析 76
5.1 LP分析的基本原理 76
5.2 LP正则方程的自相关解法和自协方差解法 78
5.2.1 LP正则方程的自相关解法 78
5.2.2 LP正则方程的自协方差解法 79
5.2.3 自相关方程的杜宾递推算法 80
5.3 模型增益G的确定 84
5.4 线谱对(LSP)分析 86
5.4.1 LSP的特点和定义 86
5.4.2 LP参数到LSP参数的转换 87
5.4.3 LSP参数到LP参数的转换 89
5.5 LP导出的其他语音参数 90
5.5.1 部分相关系数 90
5.5.2 对数面积比系数 91
5.5.3 LP复倒谱与倒谱 91
5.6 LP分析的频域解释 92
5.7 小结 94
5.8 习题 94
第6章 矢量量化 97
6.1 概述 97
6.1.1 矢量量化的定义 97
6.1.2 最佳矢量量化器 98
6.1.3 最佳矢量量化器的设计 99
6.2 无记忆矢量量化器 100
6.2.1 全搜索矢量量化器 101
6.2.2 树搜索矢量量化器 101
6.2.3 多级矢量量化器 102
6.2.4 波形/增益矢量量化器 102
6.2.5 分离均值矢量量化器 103
6.3 有记忆矢量量化器 103
6.4 特征矢量及失真测度 105
6.4.1 特征矢量 105
6.4.2 失真测度 107
6.5 小结 110
6.6 习题 111
第7章 语音编码 112
7.1 语音编码的基本概念 112
7.2 波形编码 113
7.2.1 脉冲编码调制(PCM) 113
7.2.2 差分脉冲编码调制(DPCM) 118
7.2.3 增量调制(△M) 120
7.2.4 波形编码中的自适应技术 122
7.2.5 子带编码(SBC) 126
7.3 参数编码和混合编码 131
7.3.1 基于开环搜索的LPC语音编码 131
7.3.2 基于ABS法的LPC编码 137
7.3.3 多带激励(MBE) 148
7.4 混合激励线性预测(MELP) 157
7.4.1 参数的选取和比特分配 158
7.4.2 分析部分 159
7.4.3 参数量化编码部分 163
7.4.4 合成部分 167
7.4.5 语音的合成 170
7.4.6 MELP算法的性能评估 171
7.5 语音编码的质量评估 172
7.5.1 语音算法音质的主观评价方法 172
7.5.2 语音算法音质的客观评价方法 173
7.5.3 客观评价方法与主观评价方法的拟合 177
7.6 小结 178
7.7 习题 178
第8章 语音识别 180
8.1 概述 180
8.1.1 发展简介 180
8.1.2 语音识别的指标 181
8.2 动态时间规整 182
8.3 隐马尔可夫模型 184
8.3.1 马尔可夫过程 184
8.3.2 隐马尔可夫模型 184
8.3.3 隐马尔可夫模型的基本问题 185
8.4 HMM的基本问题 186
8.4.1 K-均值聚类算法 186
8.4.2 EM算法 186
8.4.3 HMM的估计问题 187
8.4.4 HMM的解码问题 188
8.4.5 HMM的学习问题 188
8.5 连续HMM和半连续HMM 190
8.5.1 连续HMM 190
8.5.2 半连续HMM 190
8.6 HMM相似度的比较 191
8.7 HMM的应用 192
8.7.1 初值选择 192
8.7.2 拓扑选择 193
8.7.3 训练准则选择 195
8.7.4 多观察序列的训练 195
8.7.5 HMM的计算优化 196
8.8 孤立词识别 197
8.9 连接词识别 198
8.9.1 采用DTW技术的连接词识别 199
8.9.2 采用HMM算法的连接词识别 201
8.10 连续语音识别 202
8.10.1 声学模型 203
8.10.2 大词汇量的语言模型 204
8.10.3 最佳路径搜索算法 206
8.11 说话人自适应技术 208
8.11.1 MAP算法 209
8.11.2 基于变换的自适应算法 210
8.11.3 基于说话人分类的自适应算法 211
8.12 关键词确认 212
8.13 说话人识别 213
8.13.1 性能指标 214
8.13.2 表征说话人特点的基本特征 215
8.13.3 高斯混合模型(GaussianMixtureModel,GMM) 216
8.14 人工神经网络在语音识别中的应用 218
8.14.1 人工神经网络基本概念 218
8.14.2 神经网络在语音识别中的应用 219
8.15 鲁棒语音识别的研究 223
8.15.1 概述 223
8.15.2 鲁棒语音特征的研究 224
8.15.3 特征补偿技术 225
8.15.4 模型匹配技术 225
8.15.5 基于人耳听觉的信号处理 225
8.15.6 听觉视觉双模态语音识别 226
8.16 小结 226
8.17 习题 227
第9章 语音合成 229
9.1 概述 229
9.1.1 发展历史 229
9.1.2 组成和分类 230
9.1.3 性能指标 231
9.2 文-语转换系统 232
9.3 文本分析 234
9.4 韵律生成 235
9.4.1 韵律 236
9.4.2 韵律的生成和抽象处理 238
9.5 语音生成 239
9.5.1 发音器官参数合成法(ArticulatorySynthesis) 240
9.5.2 线性预测参数合成法(LinearPredictionSynthesis) 240
9.5.3 共振峰合成法(FormantSythesis) 241
9.5.4 波形拼接合成法 242
9.6 小结 246
9.6.1 语音合成系统的发展 246
9.6.2 语音合成的发展趋势 247
9.7 习题 247
第10章 语音增强 248
10.1 概述 248
10.1.1 语音和噪声特性 248
10.1.2 语音增强算法分类 250
10.2 基于语音谱特征的谐波增强算法 250
10.3 基于短时谱估计的增强算法 251
10.3.1 噪声对消法 251
10.3.2 短时谱估计 252
10.3.3 谱相减法 253
10.3.4 维纳滤波 254
10.3.5 短时谱幅度的MMSE估计 255
10.4 基于信号子空间的增强算法 257
10.4.1 信号和噪声的线性模型和子空间描述 258
10.4.2 语音信号线性估计器 259
10.5 基于语音生成模型的增强算法 262
10.5.1 基于LPC全极点模型的增强算法 262
10.5.2 最大后验概率估计法 263
10.5.3 卡尔曼滤波法 264
10.6 语音增强的新发展 265
10.6.1 基于神经网络的语音增强 265
10.6.2 基于HMM的语音增强 265
10.6.3 基于听觉感知的语音增强 265
10.6.4 基于多分辨率分析的语音增强 266
10.7 小结 266
10.8 习题 267
第11章 语音通信应用中的关键技术 268
11.1 不连续传输(DTX) 268
11.2 语音激活检测(VAD) 269
11.2.1 语音激活检测 270
11.2.2 拖尾延迟保护(Hangover) 270
11.2.3 舒适噪声产生 270
11.2.4 语音激活检测算法举例 271
11.3 回波抵消 273
11.3.1 回波的产生 273
11.3.2 数字回波抵消的基本原理 274
11.3.3 回波抵消的实现 275
11.4 声码器同步 276
11.5 纠错编码 277
11.5.1 语音信号纠错编码的特性 277
11.5.2 纠错码 278
11.5.3 纠错编码策略 278
11.5.4 CELP的纠错保护方案 279
11.6 小结 280
11.7 习题 280
第12章 语音处理的实时实现 281
12.1 DSP语音处理系统 281
12.1.1 实时语音处理系统的构成 281
12.1.2 DSP语音处理系统的特点 282
12.1.3 DSP语音处理系统的设计过程 282
12.1.4 DSP语音处理系统的开发工具 283
12.2 可编程DSP芯片应用基础 284
12.2.1 DSP芯片的基本概念 284
12.2.2 DSP芯片的发展 284
12.2.3 DSP芯片的分类 285
12.2.4 DSP芯片的选择 285
12.2.5 DSP芯片的基本结构 288
12.2.6 常用DSP芯片简介 289
12.3 CCSDSP集成开发环境 292
12.3.1 DSP的开发工具 292
12.3.2 CCS的基本概念 292
12.3.3 CCS的构成 292
12.3.4 CCS的使用 296
12.4 一个基于TMS320VCDSP应用系统的开发 296
12.4.1 系统构成 296
12.4.2 系统软硬件设计 297
12.4.3 系统调试 298
12.4.4 独立系统形成 299
12.5 小结 301
12.6 习题 302
附录 303
附录A 读写语音文件的C语言程序 303
附录B FFT算法的C语言实现程序 305
附录C 8位μ律/16位线性互换的C语言子程序 307
附录D μ律到线性变换表 309
附录E 语音信号线性预测(LPC)子程序 310
附录F 时域波形以及频谱的显示程序 311
附录G 语音信号基音检测程序 312
参考文献 319