第1章 绪论 1
1.1 VoIP的基本概念和系统组成 1
1.1.1 VoIP基本概念 1
1.1.2 VoIP基本原理 3
1.1.3 VoIP系统基本组成 5
1.1.4 VoIP主要特点 7
1.1.5 VoIP的关键技术 8
1.2 语音识别的基本原理与研究内容 10
1.2.1 语音识别基本原理 11
1.2.2 传统语音识别 14
1.2.3 VoIP语音识别 20
1.3 传统语音识别的发展历程 23
1.4 VoIP语音识别的发展历程 33
参考文献 36
第2章 VoIP语音编码标准 43
2.1 G.711语音编码 43
2.1.1 G.711语音编码原理 43
2.1.2 A律压缩 44
2.1.3 μ律压缩 48
2.2 G.729语音编码 51
2.2.1 G.729编码原理 51
2.2.2 编码器实现技术 53
2.2.3 解码器功能说明 73
2.3 G.723.1语音编码 80
2.3.1 编码器原理 81
2.3.2 编码器实现技术 81
2.3.3 解码器原理 95
2.3.4 解码器实现技术 95
参考文献 99
第3章 语音和话带数据检测 100
3.1 话带数据简介 100
3.1.1 传真 100
3.1.2 调制解调器数据 101
3.1.3 单音信号和双音多频信号(DTMF) 103
3.2 语音和话带数据波形的特点 104
3.2.1 语音波形的特点 104
3.2.2 话带数据信号波形的特点 105
3.3 语音和话带数据识别的特征分析 107
3.3.1 能量相关参数 107
3.3.2 过零率相关参数 109
3.3.3 归一化自相关函数 111
3.3.4 基音周期 111
3.3.5 谱特征 112
3.4 语音和话带数据分离方法 112
3.5 语音与话带数据检测技术应用 115
参考文献 117
附录 118
第4章 VoIP信道检测 121
4.1 声道参数 121
4.2 语音信号统计参数 123
4.2.1 偏度与峰度 123
4.2.2 LPC峰度及偏度 124
4.2.3 LPCC峰度及偏度 125
4.3 静态信噪比 127
4.4 非自然周期性参数 130
4.4.1 非自然嘟嘟声 130
4.4.2 机器性参数 131
4.4.3 帧重复性 133
4.5 哑声参数与中断参数 133
4.5.1 哑声参数 133
4.5.2 中断参数 134
4.6 基于支持矢量机的VoIP信道检测方法 135
4.6.1 算法流程 135
4.6.2 支持矢量机 135
4.6.3 算法的具体实现 137
参考文献 137
第5章 语音信号的特征提取 138
5.1 基音周期 138
5.1.1 基音检测的难点及方法分类 139
5.1.2 自相关法及其改进 139
5.1.3 并行处理法 142
5.1.4 倒谱法 144
5.1.5 简化逆滤波法 145
5.2 线性预测参数 145
5.2.1 线性预测信号模型 146
5.2.2 线性预测误差滤波 147
5.2.3 语音信号的线性预测分析 151
5.2.4 线性预测分析的解法 152
5.2.5 斜格法(Lattice Method)及其改进 153
5.3 线谱对(LSP)参数 160
5.3.1 线谱对分析原理 160
5.3.2 线谱对分析的求解 162
5.4 倒谱系数及差分参数 163
5.4.1 LPCC参数 163
5.4.2 MFCC参数 164
5.4.3 ASCC参数 166
5.4.4 差分参数 167
5.5 感觉加权的线性预测(PLP)特征 168
5.5.1 PLP参数 168
5.5.2 RASTA-PLP参数 169
5.6 高阶信号谱类特征 170
5.6.1 WV谱的定义及其主要性质 170
5.6.2 WV谱计算式的一些变形 171
参考文献 173
第6章 编解码失配补偿 175
6.1 编解码失配影响 175
6.1.1 VoIP系统语音传输 176
6.1.2 编解码失配对说话人辨认系统的影响 176
6.1.3 编解码失配对说话人确认系统的影响 177
6.1.4 特征参数的编码失真 179
6.2 常用编解码失配补偿方法 180
6.2.1 失配补偿的基本思想 181
6.2.2 经验补偿技术 181
6.2.3 盲补偿 182
6.2.4 基于特征及模型的补偿 184
6.3 基于编码失真的加权GMM模型算法 188
6.3.1 加权GMM模型 189
6.3.2 权重矩阵C的确定 191
6.3.3 实验及分析 191
6.4 编码自动匹配方法 192
6.4.1 编码自动匹配方法的基本思想 192
6.4.2 语音编码检测器 193
6.4.3 实验及分析 193
6.5 统计匹配特征变换失配补偿算法 195
6.5.1 统计匹配的基本思想 195
6.5.2 线性特征变换式 195
6.5.3 非线性特征变换式 196
6.5.4 M-step迭代根的求解 199
6.5.5 基于统计匹配的编解码失配补偿实验 201
6.6 分数归一化补偿算法 204
6.6.1 分数归一化算法的基本思想 204
6.6.2 实验及分析 206
参考文献 207
第7章 通话模式分析 210
7.1 通话模式分析的基本概念与研究内容 210
7.1.1 通话模式分析的定义 211
7.1.2 通话模式分析的关键技术 211
7.1.3 通话模式分析的研究内容 212
7.2 通话模式分析的基本方法 215
7.2.1 基于KL2距离的音频分割算法 215
7.2.2 基于隐马尔可夫模型的音频分割算法 216
7.2.3 基于贝叶斯信息准则的音频分割算法 217
7.2.4 基于熵变化趋势检测的音频分割算法 219
7.2.5 基于可信度变化趋势检测的音频分割算法 221
7.3 多人的说话人识别方法 225
7.3.1 多人说话人识别的基本思想 225
7.3.2 说话人分段 226
7.3.3 说话人聚类 227
7.3.4 彩铃的检测与分割算法 227
7.4 电信网特有噪声检测算法 230
参考文献 232
第8章 VoIP协议分析及数据获取 234
8.1 VoIP协议简介 234
8.2 SIP协议通信流程及识别 235
8.2.1 SIP协议的功能 235
8.2.2 SIP协议的通信方式 236
8.2.3 基于SIP协议的VoIP信息识别 237
8.3 H.323协议通信流程与识别 240
8.3.1 H.323通信流程 240
8.3.2 H.323协议的动态特征 244
8.3.3 H.323的识别方法 248
参考文献 251
第9章 丢包处理 252
9.1 网络丢包模型 252
9.2 网络丢包对说话人识别的影响 254
9.2.1 合成语音说话人识别实验 254
9.2.2 解码参数说话人识别实验 255
9.2.3 压缩码流说话人识别实验 256
9.3 网络丢包处理技术 258
9.3.1 丢包恢复技术 258
9.3.2 丢包隐藏技术 261
9.4 语音识别系统中的丢包补偿方法 265
9.4.1 丢包检测 265
9.4.2 丢包补偿 266
9.4.3 有效性分析 268
9.4.4 丢包补偿实验结果 268
参考文献 270
第10章 码流特征提取 273
10.1 码流语音识别的原理 273
10.2 G.729码流特征提取 274
10.2.1 编码原理 274
10.2.2 基于解码参数的G.729码流特征提取 275
10.2.3 基于帧结构映射的G.729码流特征提取 279
10.3 G.723.1码流特征提取 280
10.3.1 编码原理 280
10.3.2 基于解码参数的G.723.1码流特征提取 281
10.3.3 基于帧结构映射的G.723.1码流特征提取 282
10.4 GSM码流特征提取 283
10.4.1 编码原理 283
10.4.2 基于解码参数的GSM码流特征提取 284
10.4.3 基于帧结构映射的GSM码流特征提取 286
10.5 码流特征提取实验 287
10.5.1 解码参数实验 287
10.5.2 基于帧结构映射参数实验 288
参考文献 289
第11章 特征选择与特征变换 291
11.1 特征选择的基本概念 291
11.1.1 特征矢量和特征空间 292
11.1.2 特征的形成 292
11.1.3 特征的特点 292
11.1.4 特征的选择及作用 293
11.2 类的可分性判据 294
11.2.1 基于距离的可分性判据 294
11.2.2 基于概率密度函数的可分性判据 297
11.3 特征选择的方法 299
11.3.1 最优搜索算法 300
11.3.2 次优搜索算法 301
11.3.3 遗传算法 303
11.4 线性判别分析——LDA 306
11.4.1 线性判别分析的概念 307
11.4.2 广义线性判别函数 308
11.4.3 Fisher线性判别 310
11.4.4 多类问题 314
11.5 主分量分析——PCA 315
11.5.1 基于K-L变换的主分量分析 316
11.5.2 随机矢量的K-L展开 316
11.5.3 基于K-L变换的降维 318
11.6 独立分量分析 319
11.6.1 线性独立分量分析 319
11.6.2 线性独立分量分析算法 324
11.6.3 独立分量分析的预处理 329
11.6.4 非线性独立分量分析 330
11.7 特征变换举例 334
11.7.1 特征变换方法 334
11.7.2 特征变换实验 336
参考文献 337
第12章 语音识别的模型 339
12.1 动态时间规整 339
12.1.1 动态时间规整的定义 339
12.1.2 动态规划技术(DP) 340
12.1.3 DTW算法的改进 342
12.2 隐马尔可夫模型 344
12.2.1 隐马尔可夫模型的定义 344
12.2.2 HMM中的3个基本问题及其解决方案 346
12.2.3 隐马尔可夫模型的类型 352
12.2.4 HMM算法实现的问题 352
12.3 分类模型——SVM 362
12.3.1 学习问题 362
12.3.2 学习过程一致性的条件 363
12.3.3 学习过程收敛速度的界 365
12.3.4 结构风险最小归纳原理 367
12.3.5 支持矢量机 370
12.4 人工神经网络 377
12.4.1 神经元的基本模型 377
12.4.2 前向网络 379
12.4.3 反馈网络 382
12.5 高斯混合模型(GMM) 387
12.5.1 高斯混合模型的定义 388
12.5.2 参数调整算法——EM算法 388
12.6 动态贝叶斯网络 390
12.6.1 贝叶斯网络 391
12.6.2 动态贝叶斯网络 393
12.6.3 动态贝叶斯网络在语音识别中的应用 395
12.6.4 基于DBN的语音识别软件GMTK 398
参考文献 400
第13章 稳健性识别技术 402
13.1 稳健性识别技术概述 402
13.2 语音增强 405
13.2.1 多带谱减法(Multi-Band Spectral Subtraction,MBSS) 406
13.2.2 短时谱估计(Short Time Spectral Estimator) 407
13.2.3 瞬时维纳滤波(Instantaneous Wiener Filtering,IWF) 407
13.2.4 子空间法(Subspace) 408
13.3 信道补偿 410
13.3.1 多重风格训练 411
13.3.2 HMM分解 411
13.3.3 并行模型组合PMC(Parallel Model Combination) 413
13.3.4 矢量泰勒级数(Vector Taylor Series,VTS)方法 417
13.3.5 雅可比自适应(Jacobian Adaptation) 420
13.3.6 其他补偿方法 421
13.4 说话人自适应技术 421
13.4.1 最大似然度线性回归算法 423
13.4.2 最大后验概率算法 431
13.4.3 说话人聚类 435
13.5 说话人归一化技术 442
13.5.1 说话人归一化技术原理 442
13.5.2 频率折叠因子的选取 444
13.5.3 折叠方法的选取 447
参考文献 452
第14章 语音识别应用 458
14.1 说话人识别 458
14.1.1 说话人识别的基本原理 458
14.1.2 特征参数的统计评价 460
14.1.3 判决规则与性能评价标准 461
14.1.4 说话人识别系统举例 464
14.2 语言辨识 465
14.2.1 语言辨识的基本原理 465
14.2.2 语言辨识的主要方法 466
14.2.3 语言辨识系统举例 471
14.3 关键词识别 473
14.3.1 关键词识别的基本原理 473
14.3.2 关键词识别及其与连续语音识别的关系 475
14.3.3 关键词识别的基本问题 475
14.3.4 关键词识别系统的主要技术难点 477
14.3.5 关键词识别系统举例 478
14.4 连续语音识别 479
14.4.1 连续语音识别的基本原理 479
14.4.2 连续语音识别中的搜索策略 481
14.4.3 连续语音识别系统举例 484
14.5 情感识别 485
14.5.1 情感识别的基本原理 485
14.5.2 情感分类 486
14.5.3 情感语音数据采集 487
14.5.4 情感特征分析 488
14.5.5 情感识别方法 489
参考文献 490