第1章 绪论 1
1.1 语音信号的发展历程 1
1.2 语音信号处理的研究方向 2
1.3 本书结构 4
第2章 语音信号处理的基础知识 5
2.1 语音的产生与感知 5
2.1.1 人类发音系统 5
2.1.2 人类听觉系统 6
2.1.3 听觉感知特性[C] 7
2.2 语音产生的数学模型 13
2.2.1 激励模型 13
2.2.2 声道模型 14
2.2.3 辐射模型 18
2.2.4 数学模型与实现[C] 18
2.3 语音的常用参数 21
2.3.1 强度与响度[C] 22
2.3.2 频率与音高 27
2.3.3 音色与音质 28
2.4 语音信号的数字化 28
2.5 语音信号的表征 29
2.5.1 时域表示 29
2.5.2 频谱表示 30
2.5.3 语谱图 32
2.6 思考与复习题 33
第3章 语音信号分析方法 34
3.1 概述 34
3.2 语音信号预处理 34
3.2.1 分帧与加窗[C] 34
3.2.2 消除趋势项和直流分量 38
3.2.3 预加重与去加重 41
3.3 语音信号的时域分析[C] 42
3.3.1 短时能量及短时平均幅度 43
3.3.2 短时过零率 44
3.3.3 短时自相关 46
3.3.4 短时平均幅度差 48
3.4 语音信号的频域分析 49
3.4.1 短时傅里叶变换 49
3.4.2 功率谱估计[C] 51
3.4.3 短时谱的临界带特征矢量 53
3.5 语音信号的倒谱分析 53
3.5.1 同态信号处理的基本原理 54
3.5.2 复倒谱和倒谱[C] 55
3.5.3 美尔倒谱系数[C] 57
3.6 语音信号的线性预测分析 62
3.6.1 线性预测分析的基本原理 62
3.6.2 线性预测方程组的求解[C] 65
3.6.3 线性预测相关参数 69
36.4 线谱对分析 71
3.6.5 线性预测系数与线谱对参数的互换[C] 73
3.7 思考与复习题 78
第4章 语音信号特征提取技术 80
4.1 概述 80
4.2 端点检测[C] 80
4.2.1 双门限法 81
4.2.2 自相关法 85
4.2.3 谱熵法 89
4.2.4 比例法 91
4.2.5 谱距离法 92
4.3 基音周期估计[C] 94
4.3.1 信号预处理 95
4.3.2 自相关法 96
4.3.3 平均幅度差函数法 100
4.3.4 倒谱法 101
4.3.5 简化逆滤波法 103
4.3.6 基音检测后处理 104
4.4 共振峰估计[C] 107
4.4.1 倒谱法 108
4.4.2 线性预测法 110
4.5 思考与复习题 115
第5章 语音增强 116
5.1 概述 116
5.2 基础知识 116
5.2.1 人耳感知特性 116
5.2.2 语音特性 117
5.2.3 噪声特性 117
5.2.4 语音质量评价标准 118
5.3 谱减法 122
5.3.1 基本原理[C] 122
5.3.2 改进算法 126
5.4 维纳滤波法 127
5.4.1 基本原理 127
5.4.2 改进算法[C] 128
5.5 自适应滤波器法 133
5.5.1 最小均方误差滤波器[C] 133
5.5.2 归一化最小均方误差滤波器 136
5.5.3 自适应陷波器[C] 138
5.5.4 干扰抑制 140
5.6 基于听觉掩蔽效应的语音增强方法 141
5.6.1 听觉掩蔽阈值计算 141
5.6.2 感知滤波器方法 143
5.7 思考与复习题 145
第6章 说话人识别 146
6.1 概述 146
6.2 说话人识别原理及系统结构 147
6.2.1 预处理 147
6.2.2 说话人识别特征的选取 149
6.2.3 特征参量评价方法 151
6.2.4 模式匹配方法 152
6.2.5 说话人识别中判别方法和阈值的选择 152
6.2.6 说话人识别系统的评价 154
6.3 应用VQ的说话人识别系统 154
6.3.1 系统模型 154
6.3.2 VQ基本原理 155
6.3.3 失真测度 157
6.3.4 系统的设计与实现[C] 159
6.4 应用GMM的说话人识别系统 164
6.4.1 系统模型 164
6.4.2 GMM概述 165
6.4.3 GMM的参数估计 166
6.4.4 GMM模型的问题 171
6.5 尚需进一步探索的研究课题 173
6.6 思考与复习题 174
第7章 语音识别 175
7.1 概述 175
7.2 语音识别原理与系统构成 177
7.2.1 基本构成 177
7.2.2 前端处理 178
7.2.3 关键组成 178
7.3 基于动态时间规整的语音识别系统 180
7.3.1 系统构成 180
7.3.2 动态时间规整[C] 181
7.3.3 算法的改进 184
7.4 基于隐马尔可夫模型的语音识别系统 185
7.4.1 隐马尔可夫模型概述 185
7.4.2 隐马尔可夫模型的定义 187
7.4.3 隐马尔可夫模型的基本算法 189
7.4.4 基于隐马尔可夫模型的孤立字(词)识别 194
7.4.5 算法的改进策略 195
7.5 性能评测 197
7.5.1 评测方法及指标 197
7.5.2 其他因素 199
7.6 系统总结 199
7.7 思考与复习题 200
第8章 语音信号情感处理 201
8.1 概述 201
8.2 情感理论与情感诱发实验 201
8.2.1 情感的心理学理论 201
8.2.2 实用语音情感数据库的建立 202
8.2.3 情感语料的诱发方法 204
8.2.4 情感语料的主观评价方法 206
8.3 情感的声学特征分析 207
8.3.1 情感特征提取 207
8.3.2 特征降维算法[C] 212
8.4 实用语音情感的识别算法研究 217
8.4.1 K近邻分类器[C] 218
8.4.2 支持向量机 220
8.4.3 人工神经网络 223
8.5 应用与展望 226
8.6 思考与复习题 227
第9章 语音合成与转换 228
9.1 概述 228
9.2 帧合成技术 230
9.3 经典语音合成算法 234
9.3.1 线性预测合成法[C] 234
9.3.2 共振峰合成法[C] 240
9.3.3 基音同步叠加技术 247
9.4 语音信号的变速和变调[C] 250
9.5 文语转换系统 260
9.6 语音转换及其研究方向 261
9.7 思考与复习题 263
第10章 声源定位 264
10.1 概述 264
10.2 双耳听觉定位原理及方法 265
10.2.1 人耳听觉定位原理 265
10.2.2 人耳声源定位线索 266
10.2.3 声源估计方法 268
10.3 传声器阵列模型 269
10.3.1 窄带阵列信号处理模型 269
10.3.2 传声器阵列信号模型 270
10.4 房间回响模型[C] 272
10.5 基于传声器阵列的声源定位方法 276
10.5.1 基于最大输出功率的可控波束形成算法 276
10.5.2 基于到达时间差的定位算法[C] 277
10.5.3 基于高分辨率谱估计的定位算法[C] 281
10.6 总结与展望 290
10.7 思考与复习题 290
第11章 语音隐藏 291
11.1 概述 291
11.2 信息隐藏基础 292
11.3 语音信息隐藏算法 294
11.3.1 低比特位编码法[C] 294
11.3.2 回声隐藏算法[C] 297
11.3.3 其他算法 301
11.4 常用评价指标 303
11.5 总结与展望 305
11.6 思考与复习题 306
第12章 语音编码 307
12.1 概述 307
12.2 理论依据 308
12.3 主要性能指标 309
12.4 波形编码 311
12.4.1 脉冲编码调制[C] 311
12.4.2 自适应预测编码 314
12.4.3 自适应差分脉冲编码调制 315
12.5 参数编码 320
12.5.1 LPC参数的变换和量化 320
12.5.2 LPC-10编码器 321
12.5.3 LPC-10编解码器的缺点及改进 324
12.6 语音信号的混合编码 325
12.7 研究展望 327
12.8 思考与复习题 328
附录 329
附录A MFC类模板及引入的函数库说明 329
A.1 std::vector简介 329
A.2 std::complex简介 330
A.3 FFTW函数库简介 330
附录B 基于MFC的语音录放原理与程序实现 331
B.1 MFC消息机制 331
B.2 基于MFC的语音录放原理 334
B.3 基于MFC的语音录放程序实现 336
附录C 书中涉及的C++函数说明 357
参考文献 358