第1章 引言 1
1.1 离散时间语音信号处理 1
目录 1
1.2 语音传输通路 2
1.3 基于语音产生和感知的分析与综合 2
1.4 应用 3
1.5 本书概要 5
1.6 小结 6
参考文献 7
2.2 离散时间信号 8
第2章 离散时间信号处理基础 8
2.1 引言 8
2.3 离散时间系统 10
2.4 离散时间傅里叶变换 11
2.5 测不准原理 15
2.6 z变换 17
2.7 频域LTI系统 20
2.8 LTI系统的特性 24
2.8.1 差分方程实现 24
2.8.2 幅度相位关系 25
2.8.3 FIR滤波器 27
2.8.4 IIR滤波器 28
2.9 时变系统 29
2.10 离散傅里叶变换 31
2.11 连续信号和系统转换为离散时间形式 32
2.11.1 采样定理 32
2.11.2 系统响应的采样 34
2.12 小结 35
习题 35
2.11.3 微分方程的数值模拟 35
参考文献 41
第3章 语音的产生与分类 42
3.1 引言 42
3.2 解剖学和生理学对发声的解释 43
3.2.1 肺 43
3.2.2 喉 44
3.2.3 声道 50
3.2.4 根据声源的语音分类 54
3.3 语音的语谱图分析(Spectrographic Analysis) 55
3.4.1 语言的元素 60
3.4 语音的分类 60
3.4.2 元音 62
3.4.3 鼻音 64
3.4.4 摩擦音 65
3.4.5 爆破音 68
3.4.6 过渡语音 70
3.5 韵律学:语音的音调 73
3.6 语音感知 75
3.6.1 声学音征 76
3.6.2 语音感知模型 76
3.7 小结 77
习题 78
参考文献 82
第4章 语音产生的声学理论 85
4.1 引言 85
4.2 声音物理学 85
4.2.1 基础知识 85
4.2.2 波动方程 88
4.3 均匀声管模型(Uniform Tube Model) 91
4.3.1 无损情况 91
4.3.2 能量损耗的影响 97
4.3.3 边界效应 100
4.3.4 完整的模型 102
4.4 基于声管级联的离散时间模型 104
4.4.1 声音在级联声管模型中的传播 105
4.4.2 离散时间模型 109
4.4.3 完整的离散时间模型 114
4.5 声带/声道相互作用 118
4.5.1 一个描述声源/声道相互作用的模型 118
4.5.2 共振峰频率和带宽的调制 121
习题 124
4.6 小结 124
参考文献 133
第5章 零-极点语音模型的分析与综合 136
5.1 引言 136
5.2 时间依赖处理 136
5.3 确定性信号的全极点建模 137
5.3.1 公式化表示 137
5.3.2 误差最小化 140
5.3.3 自相关法 144
5.3.4 Levinson递归及其相关特性 150
5.3.5 逆滤波器的格形表示 155
5.3.6 频域解释 159
5.4 随机语音信号的线性预测分析 160
5.4.1 数学表示 161
5.4.2 误差最小化 162
5.4.3 自相关法 163
5.5 “良好度”准则(criterion of “goodness”) 163
5.5.1 时域评价 163
5.5.2 频域评价 165
5.6 基于全极点模型的语音综合 168
5.7 零-极点估计 170
5.7.1 线性化 171
5.7.2 语音方面的应用 172
5.7.3 高基频说话人:采用双分析窗 176
5.8 声门波导数的分解 176
5.8.1 模型 176
5.8.2 估计 178
附录5.A 随机过程的性质 180
5.9 小结 180
附录5.B 线性预测分析中格形滤波器的推导 184
习题 186
参考文献 195
第6章 同态信号处理 197
6.1 引言 197
6.2 概念 198
6.3 卷积同态系统 200
6.4.1 有理z变换序列 203
6.4 类语音序列的复倒谱 203
6.4.2 与有理z变换序列相卷积的脉冲序列 206
6.4.3 同态滤波 208
6.4.4 离散复倒谱 209
6.5 频谱根同态滤波 212
6.6 周期序列的短时同态分析 215
6.6.1 倒频域观点 215
6.6.2 频域观点 218
6.7 短时语音分析 219
6.7.1 浊音语音的复倒谱 219
6.7.2 清音语音的复倒谱 223
6.8.1 零相位和最小相位合成 224
6.8 分析/综合结构 224
6.8.2 混合相位合成 226
6.8.3 频谱根解卷积 227
6.9 线性预测与同态滤波的对比 228
6.9.1 特性 228
6.9.2 同态预测 228
6.10 小结 230
习题 231
参考文献 238
7.2 短时分析 240
7.2.1 傅里叶变换观点 240
第7章 短时傅里叶变换分析与综合 240
7.1 简介 240
7.2.2 滤波观点 243
7.2.3 时-频分辨率折中 247
7.3 短时综合 247
7.3.1 数学表示 248
7.3.2 滤波器组求和法(FBS) 249
7.3.3 叠接相加(OLA)法 252
7.3.4 时-频抽样 254
7.4 短时傅里叶变换幅度 256
7.4.1 信号表示 257
7.4.2 由时-频样点重建信号 259
7.5 由修正的STFT或STFTM进行信号估计 260
7.5.1 STFT综合方法的启发式应用 262
7.5.2 由修正的STFT进行最小方差信号估计 264
7.5.3 由修正的STFTM进行LSE信号估计 265
7.6 时域修正和语音增强 266
7.6.1 时域修正 266
7.6.2 降噪 271
附录7.A 乘性修正的FBS法 272
7.7 小结 272
习题 273
参考文献 281
第8章 滤波器组分析与综合 283
8.1 引言 283
8.2 再谈FBS法 283
8.3 相位声码器 286
8.3.1 准周期性信号的分析与综合 286
8.3.2 应用 292
8.3.3 采用正弦分析/综合的原因 296
8.4.1 时间包络的保持 297
8.4 相位声码器中的相位相干 297
8.4.2 准周期性信号的相位相干 300
8.5 恒定Q分析/综合 301
8.5.1 推动 301
8.5.2 小波变换 302
8.5.3 离散小波变换 305
8.5.4 应用 309
8.6 听觉模型 312
8.6.1 听觉处理的AM-FM模型 314
8.6.2 听觉谱模型 316
8.6.3 听觉神经处理的阶段/紧张论(Phasic/Tonic View) 318
8.7 小结 321
习题 321
参考文献 329
第9章 正弦分析与综合 333
9.1 引言 333
9.2 正弦语音模型 334
9.3 正弦参数的估计 337
9.3.1 浊音 340
9.3.2 清音 342
9.3.3 分析系统 343
9.3.4 帧-帧之间的峰值匹配 344
9.4 正弦综合 347
9.4.1 立方相位内插 347
9.4.2 叠接相加内插 351
9.4.3 实例 352
9.4.4 应用 354
9.4.5 时-频分辨率 356
9.5 激励源/滤波器相位模型 358
9.5.1 信号模型 358
9.5.2 应用 359
9.6 加性确定-随机模型 368
9.6.1 信号模型 369
9.6.2 分析/综合 370
9.6.3 在信号修正中的应用 371
9.7 小结 372
附录9.A 正弦模型的推导 373
附录9.B 最优立方相位参数的推导 375
习题 377
参考文献 389
10.2 基于相关的基音估计器 393
第10章 频域基音估计 393
10.1 引言 393
10.3 基于“梳状滤波器”的基音估计 394
10.4 基于谐波正弦波模型的基音估计 397
10.4.1 谐波正弦波模型的参数估计 397
10.4.2 利用先验幅度的谐波正弦波模型的参数估计 399
10.4.3 清浊音检测 403
10.4.4 时-频分辨率的观点 406
10.4.5 通过谐波正弦波重建的评价 408
10.5 声门脉冲起始估计 408
10.5.1 基于起始时间的相位模型 409
10.5.2 起始时间估计 410
10.5.3 正弦波幅度包络估计 413
10.5.4 最小相位正弦波重建 414
10.6 多频带基音和清浊音估计 415
10.6.1 谐波正弦波模型 415
10.6.2 多带清浊音判决 417
10.7 小结 417
习题 418
参考文献 422
11.1 引言 424
第11章 非线性测量与建模技术 424
11.2 回顾STFT和小波变换 425
11.2.1 基底表示法 425
11.2.2 最小不确定性 426
11.2.3 跟踪瞬时频率 428
11.3 双线性时-频分布 430
11.3.1 严格意义上时-频分布的特性 430
11.3.2 语谱图作为一种时-频分布 433
11.3.3 Wigner分布 433
11.3.4 Wigner分布的变化形式 436
11.3.5 应用于语音分析 437
11.4 声道中的空气声学气流 440
11.4.1 预备知识 441
11.4.2 声道内空气声流的早期测量方法和假设 442
11.4.3 空气声学机械模型 444
11.4.4 空气声学计算模型 447
11.5 瞬时的Teager能量操作 447
11.5.1 动机 448
11.5.2 能量测度 448
11.5.3 能量分离 452
11.6 小结 456
习题 457
参考文献 464
第12章 语音编码 468
12.1 引言 468
12.2 统计模型 470
12.3 标量量化 470
12.3.1 基本原理 471
12.3.2 量化噪声 473
12.3.3 Max量化器的推导 476
12.3.4 压扩 480
12.3.5 自适应量化 481
12.3.6 差分和残差量化 483
12.4 矢量量化(VQ) 485
12.4.1 方法 485
12.4.2 VQ失真测度 487
12.4.3 语音传输中VQ的应用 489
12.5 频域编码 489
12.5.1 子带编码 489
12.5.2 正弦编码 492
12.6 基于模型的编码 500
12.6.1 基本的线性预测编码器(LPC) 500
12.6.2 VQ LPC编码器 502
12.6.3 混合激励LPC(MELP) 503
12.7 LPC残差编码 504
12.7.1 多脉冲线性预测 505
12.7.2 具有长时预测的多脉冲模型 508
12.7.3 码激励线性预测(CELP) 512
习题 514
12.8 小结 514
参考文献 520
第13章 语音增强 526
13.1 简介 526
13.2 预备知识 527
13.2.1 问题阐述 527
13.2.2 谱减(Spectral Subtraction) 528
13.2.3 倒谱均值减 531
13.3 维纳滤波(Wiener Filtering) 531
13.3.1 估计目标信号谱的基本方法 532
13.3.2 基于谱变化的自适应平滑 534
13.3.3 应用于语音信号 536
13.3.4 最优幅度谱估计 539
13.3.5 双耳表征(Binaural Representations) 540
13.4 基于模型的处理方法 540
13.5 基于听觉掩蔽的语音增强 542
13.5.1 频域掩蔽原理 543
13.5.2 掩蔽门限的计算 544
13.5.3 利用频率掩蔽进行噪声抑制 545
13.6 时频空间中的时域处理 547
13.6.1 问题描述 547
13.6.2 时域滤波 548
13.6.3 时间轨迹的非线性变换 550
13.7 小结 554
附录13.A 随机理论中的参数估计 555
习题 555
参考文献 559
第14章 说话人识别 563
14.1 引言 563
14.2 用于说话人识别的谱特征 564
14.2.1 简述 565
14.2.2 Mel倒谱(Mel-Cepstrum) 566
14.2.3 子倒谱(Sub-Cepstrum) 568
14.3 说话人识别算法 569
14.3.1 最小距离分类器 569
14.3.2 矢量量化 570
14.3.3 高斯混合模型(GMM) 572
14.4 说话人识别中的非频谱特征 576
14.4.1 声门波导数 576
14.4.2 声源开启定时 579
14.4.3 声源、频谱和韵律的相互影响 580
14.5 不匹配条件下的信号增强 583
14.5.1 线性信道干扰 584
14.5.2 非线性信道失真 586
14.5.3 其他方法 594
14.6 基于编码语音的说话人识别 595
14.6.1 采用编码合成语音的实验 596
14.6.2 使用编码参数的实验 596
14.7 小结 598
附录14.A 最大期望(Expectation-Maximization,EM)估计 599
习题 601
参考文献 607
缩略语表 613