第一章 现代语音编码技术导论 1
1.1 现代语音编码概述 1
1.1.1 语音编码和现代语音编码的概念及发展 1
1.1.2 对语音编码的要求 2
1.1.3 现代语音编码技术的作用和意义 2
1.1.4 语音编码系统的构成 3
1.2 语音编码的分类 4
1.2.1 传统的分类方法 4
1.2.2 按照编码速率的分类方法 5
1.2.3 按照被编码信号所在的域的分类方法 5
1.2.4 按照编码所使用的主要技术的分类方法 5
1.2.5 按照编码算法是否依赖于某种模型假定的分类方法 6
1.2.6 按照被编码信号的属性的分类方法 6
1.2.7 按照编码速率是否固定的分类方法 6
1.2.8 按照编码出现和应用时间以及技术发展情况的分类方法 7
1.3 衡量语音编码性能的主要指标 7
1.3.1 编码质量 7
1.3.2 编码速率 8
1.3.3 编译码复杂程度 9
1.3.4 编译码时延 9
1.3.5 坚韧性 10
1.4 提高语音编码质量的基本途径 10
1.5 语音编码发展现状及今后的发展方向 13
1.5.1 语音编码的发展现状 13
1.5.2 现代语音编码的发展趋势及方向 16
1.6 本书的内容结构安排 17
复习思考题 17
练习题 18
第二章 矢量量化编码 19
2.1 概述 19
2.1.1 量化的分类 19
2.1.2 矢量量化的发展及应用 19
2.2 标量量化 21
2.2.1 无记忆标量量化 21
2.2.2 有记忆标量量化 34
2.3 矢量量化原理 37
2.3.1 矢量量化的定义 37
2.3.2 失真测度 39
2.3.3 矢量量化器的结构 41
2.3.4 矢量量化器的速率 41
2.3.5 最佳矢量量化器 42
2.3.6 矢量量化器的设计算法 44
2.4 无记忆矢量量化器 49
2.4.1 基本矢量量化器 50
2.4.2 树搜索矢量量化器 52
2.4.3 多级矢量量化器 59
2.4.4 乘积码矢量量化器 64
2.5 有记忆矢量量化器 68
2.5.1 反馈矢量量化器 68
2.5.2 自适应矢量量化器 70
复习思考题 71
练习题 71
第三章 时域波形编码 73
3.1 PCM 73
3.1.1 PCM的基本原理 73
3.1.2 PCM时分复用原理 78
3.1.3 PCM的A律13折线编码 82
3.2 DPCM 88
3.3 ADPCM 90
3.4 DM和ADM 91
3.4.1 DM 91
3.4.2 ADM 92
3.5 CCITT G.721建议的高质量32 kb/s ADPCM 92
3.6 CCITT G.727建议的镶嵌式ADPCM 99
复习思考题 101
练习题 102
第四章 子带编码 103
4.1 概述 103
4.2 子带编码的工作原理 104
4.3 子带编码的比特分配 106
4.4 整数带滤波器组 109
4.5 正交镜像滤波器组 111
4.6 7kHz带宽SB-ADPCM高音质声频编码系统 112
4.6.1 CCITT G.722关于7 kHz带宽高音质声频编码方案的主要内容 112
4.6.2 编、译码器的组成 113
4.6.3 CCITT G.722编码方案的特点 116
4.6.4 G.722编码标准的应用场合 116
复习思考题 117
练习题 117
第五章 变换域编码 118
5.1 变换编码概述 118
5.1.1 什么是变换编码?为什么进行变换? 118
5.1.2 正交变换与正交矩阵 118
5.2 几种常用的正交变换 120
5.2.1 K-L变换 120
5.2.2 W-H变换 122
5.2.3 DCT(离散余弦变换) 124
5.2.4 Haar变换 127
5.3 变换域系数的量化和编码 129
5.3.1 变换矩阵的选择 129
5.3.2 量化系数的选择 130
复习思考题 130
练习题 131
第六章 参数编码 132
6.1 参数编码概述 132
6.1.1 语音信号的产生模型 132
6.1.2 参数编码的类型 134
6.2 线性预测原理 136
6.2.1 预测编码的基本原理 136
6.2.2 线性预测 138
6.2.3 线性预测方程组及预测系数的确定 139
6.3 线性预测的几种推演参数 140
6.3.1 反射系数 141
6.3.2 对数面积比系数 141
6.3.3 倒谱系数 141
6.3.4 预测器多项式的根 142
6.3.5 全极点系统的冲激响应 142
6.3.6 全极点系统冲激响应的自相关系数 143
6.3.7 预测误差滤波器冲激响应的自相关系数 143
6.4 线谱对 143
6.4.1 线谱对分析的基本原理 143
6.4.2 线谱对参数的求解 145
6.5 线性预测声码器 145
6.5.1 考虑语音短时和长时相关性的语音生成模型 146
6.5.2 LPC声码器 147
6.5.3 特征参数的提取 148
6.6 LPC-10声码器 150
6.6.1 LPC-10的编码器 150
6.6.2 LPC-10的译码器 151
6.6.3 LPC-10参数的编码与译码 152
6.7 LPC-10e声码器 153
6.7.1 LPC-10e的编码器 153
6.7.2 LPC-10e的译码器 155
6.8 LPC声码器存在问题及其改进措施 156
6.8.1 LPC声码器存在的主要问题 156
6.8.2 LPC声码器的改进措施 157
复习思考题 158
练习题 159
第七章 混合激励线性预测编码 160
7.1 概述 160
7.2 MELP声码器编码原理 160
7.3 MELP声码器译码原理 166
7.3.1 基音周期的译码 166
7.3.2 增益的译码和抑制 166
7.3.3 参数的插值 167
7.3.4 混合激励的生成 167
7.3.5 自适应谱增强 167
7.3.6 线性预测合成 168
7.3.7 增益校正 168
7.3.8 脉冲整形滤波 168
复习思考题 168
练习题 169
第八章 混合编码 170
8.1 语音混合编码的一般原理 170
8.1.1 感觉加权滤波器 170
8.1.2 合成分析法 172
8.1.3 激励源的改进 173
8.2 多脉冲激励线性预测编码 173
8.2.1 多脉冲激励线性预测编码的原理框图 173
8.2.2 最佳激励脉冲参数的估值 174
8.2.3 准最佳激励脉冲参数的估值 175
8.2.4 多脉冲线性预测编码的应用 176
8.3 规则脉冲激励线性预测编码 176
8.3.1 RPELPC的基本原理 176
8.3.2 RPE-LTP的编码方案 178
8.3.3 GSM系统的RPE-LTP编码器 179
8.3.4 GSM系统的RPE-LTP译码器 180
8.4 码激励线性预测编码 180
8.4.1 CELPC的基本原理 181
8.4.2 美国政府标准(FED-STD-1016)4.8 kb/s的CELPC声码器 182
8.4.3 美国电子工业协会电信协会(EIA/TIA)标准8 kb/s的VSELPC声码器 184
8.4.4 CCITT G.728建议的16 kb/s低延时CELPC(LD-CELPC)声码器 186
8.4.5 ITU-T G.729建议的8 kb/s共轭结构代数码激励线性预测(CS-ACELP)声码器 189
复习思考题 191
练习题 191
第九章 多带激励编码 192
9.1 概述 192
9.2 MBE语音模型 193
9.3 MBE语音参数的估计 197
9.3.1 某个子频带内的MBE语音产生模型 197
9.3.2 MBE模型参数的估计 198
9.3.3 MBE语音合成 199
9.4 MBE声码器的应用 200
复习思考题 200
练习题 201
第十章 低速率和极低速率语音编码 202
10.1 低速率语音编码概述 202
10.2 波形内插语音编码 203
10.2.1 狭义波形内插法和广义波形内插法 203
10.2.2 浊音语音的波形内插 203
10.2.3 广义内插(GWI)模型 207
10.2.4 实用GWI语音编码系统 209
10.3 正弦变换编码 213
10.3.1 语音信号的正弦分析 213
10.3.2 语音信号的正弦合成 214
10.3.3 低速率正弦编码器 215
10.3.4 与原型波形内插相结合 216
10.4 极低速率语音编码概述 217
10.5 1200~400 b/s的语音编码技术 218
10.5.1 帧填充技术 218
10.5.2 利用矢量量化技术 218
10.6 400 b/s以下的语音编码技术——语音识别与合成技术 219
10.6.1 识别合成型声码器的基本原理 219
10.6.2 关于识别合成型声码器编码速率的估计 220
复习思考题 220
第十一章 变速率语音编码 222
11.1 概述 222
11.1.1 变速率语音编码的必要性和可能性 222
11.1.2 变速率语音编码中使用的相关新技术 223
11.1.3 变速率语音编码的速率控制方式 223
11.2 实现变速率语音编码的关键技术 224
11.2.1 话音激活检测(VAD)技术 224
11.2.2 速率判决(RDA)技术 225
11.2.3 差错隐藏(ECU)技术 225
11.2.4 舒适背景噪声(CNA)生成技术 225
11.3 增强型变速率语音编码 226
11.4 变速率CELPC(QCELPC)语音编码 227
11.4.1 QCELPC概述 227
11.4.2 QCELPC编码器 228
11.4.3 QCELPC译码器 232
11.5 自适应多速率(AMR)语音编码 233
11.6 可选模式声码器(SMV) 235
复习思考题 236
练习题 236
第十二章 宽频带高音质声频编码 237
12.1 宽频带声频的发展状况 237
12.2 宽带声频编码技术 238
12.2.1 宽带声频波形编码的分类 238
12.2.2 CCIR建议的宽频带声频编码方式 239
12.3 宽频高音质声频编码器实例 239
12.3.1 编码系统组成 239
12.3.2 设计特点 240
12.3.3 编码系统的工作原理 240
复习思考题 241
第十三章 感知音频编码 242
13.1 心理声学基础 242
13.1.1 人类听觉系统的听觉阈值 242
13.1.2 频域掩蔽 242
13.2 感知音频编码/译码系统的组成 245
13.3 信宿(听觉)模型 245
13.3.1 单音的听觉模型 245
13.3.2 考虑掩蔽效应的听觉模型 247
13.4 感知音频编码的时-频分析信源模型 248
13.5 根据听觉(信宿)模型进行量化编码 248
13.6 感知音频编码器 248
13.6.1 音频编码-1(AC-1) 248
13.6.2 音频编码-2(AC-2) 249
13.6.3 音频编码-3(AC-3)——数字杜比 249
13.6.4 Apt-X100音频编码器 254
复习思考题 254
第十四章 MPEG音频压缩编码 255
14.1 MPEG音频编码概述 255
14.1.1 声音 255
14.1.2 模拟音频 256
14.1.3 数字音频 256
14.2 MPEG-1音频压缩编码 256
14.2.1 MPEG-1音频层概述 256
14.2.2 MPEG-1音频层的数据结构 257
14.2.3 心理声学模型 257
14.2.4 MPEG-1的音频层第Ⅰ层 260
14.2.5 MPEG-1的音频层第Ⅱ层 261
14.2.6 MPEG-1的音频层第Ⅲ层 263
14.2.7 MP3 265
14.3 MPEG-2音频压缩编码 267
14.3.1 MPEG-2音频压缩编码概述 267
14.3.2 MPEG-2音频编码与译码 267
14.3.3 MPEG-2 AAC(高级音频编码) 269
14.4 MPEG-4音频压缩编码 271
14.4.1 MPEG-4音频压缩概述 271
14.4.2 交互操作 271
14.4.3 音频编码 272
复习思考题 274
练习题 274
第十五章 语音及音频编码的国际标准和地区标准 275
15.1 概述 275
15.1.1 主要的国际标准化组织 275
15.1.2 主要的地区标准化组织 277
15.2 各标准化实体制定语音编码标准的一般工作程序 278
15.2.1 建立参考条款 278
15.2.2 语音编码器的性能测量 279
15.2.3 工作日程 280
15.3 CCITT(ITU)已经公布的电话带宽语音编码标准 280
15.4 ITU-T近十几年来公布的电话带宽语音编码标准 281
15.5 CCITT已经公布及ITU-T计划的宽带语音编码标准 281
15.6 国际海事卫星组织4.15 kb/s的IMBE语音编码标准 282
15.7 各主要地区标准化组织的语音编码标准 282
15.7.1 北美数字蜂窝移动通信语音编码标准 282
15.7.2 欧洲数字蜂窝移动通信语音编码标准 283
15.7.3 美国的保密通信语音编码标准 283
15.7.4 日本的数字蜂窝移动通信语音编码标准 284
15.8 MPEG音频压缩编码标准 284
15.8.1 MPEG-1音频压缩编码标准 284
15.8.2 MPEG-2音频压缩编码标准 285
15.8.3 MPEG-4音频压缩编码 286
复习思考题 287
参考文献 288