《VoIP语音处理与识别》PDF下载

  • 购买积分:15 如何计算积分?
  • 作  者:屈丹等编著
  • 出 版 社:北京:国防工业出版社
  • 出版年份:2010
  • ISBN:9787118066685
  • 页数:495 页
图书介绍:全书共14章,内容包括:VoIP的基本概念与原理、VoIP信道检测、话带数据分离、编解码失配补偿、通话模式分析、VoIP信息获取及音频码流还原、丢包处理技、码流特征提取、特征选择和变换组合、语音识别的常用模型、语音识别应用、稳健性模型算法。本书丰富的内容不仅利于不同专业的人员根据实际需要灵活选择,同时能够让读者较系统地掌握VoIP语音识别的理论精髓和相关技术等。

第1章 绪论 1

1.1 VoIP的基本概念和系统组成 1

1.1.1 VoIP基本概念 1

1.1.2 VoIP基本原理 3

1.1.3 VoIP系统基本组成 5

1.1.4 VoIP主要特点 7

1.1.5 VoIP的关键技术 8

1.2 语音识别的基本原理与研究内容 10

1.2.1 语音识别基本原理 11

1.2.2 传统语音识别 14

1.2.3 VoIP语音识别 20

1.3 传统语音识别的发展历程 23

1.4 VoIP语音识别的发展历程 33

参考文献 36

第2章 VoIP语音编码标准 43

2.1 G.711语音编码 43

2.1.1 G.711语音编码原理 43

2.1.2 A律压缩 44

2.1.3 μ律压缩 48

2.2 G.729语音编码 51

2.2.1 G.729编码原理 51

2.2.2 编码器实现技术 53

2.2.3 解码器功能说明 73

2.3 G.723.1语音编码 80

2.3.1 编码器原理 81

2.3.2 编码器实现技术 81

2.3.3 解码器原理 95

2.3.4 解码器实现技术 95

参考文献 99

第3章 语音和话带数据检测 100

3.1 话带数据简介 100

3.1.1 传真 100

3.1.2 调制解调器数据 101

3.1.3 单音信号和双音多频信号(DTMF) 103

3.2 语音和话带数据波形的特点 104

3.2.1 语音波形的特点 104

3.2.2 话带数据信号波形的特点 105

3.3 语音和话带数据识别的特征分析 107

3.3.1 能量相关参数 107

3.3.2 过零率相关参数 109

3.3.3 归一化自相关函数 111

3.3.4 基音周期 111

3.3.5 谱特征 112

3.4 语音和话带数据分离方法 112

3.5 语音与话带数据检测技术应用 115

参考文献 117

附录 118

第4章 VoIP信道检测 121

4.1 声道参数 121

4.2 语音信号统计参数 123

4.2.1 偏度与峰度 123

4.2.2 LPC峰度及偏度 124

4.2.3 LPCC峰度及偏度 125

4.3 静态信噪比 127

4.4 非自然周期性参数 130

4.4.1 非自然嘟嘟声 130

4.4.2 机器性参数 131

4.4.3 帧重复性 133

4.5 哑声参数与中断参数 133

4.5.1 哑声参数 133

4.5.2 中断参数 134

4.6 基于支持矢量机的VoIP信道检测方法 135

4.6.1 算法流程 135

4.6.2 支持矢量机 135

4.6.3 算法的具体实现 137

参考文献 137

第5章 语音信号的特征提取 138

5.1 基音周期 138

5.1.1 基音检测的难点及方法分类 139

5.1.2 自相关法及其改进 139

5.1.3 并行处理法 142

5.1.4 倒谱法 144

5.1.5 简化逆滤波法 145

5.2 线性预测参数 145

5.2.1 线性预测信号模型 146

5.2.2 线性预测误差滤波 147

5.2.3 语音信号的线性预测分析 151

5.2.4 线性预测分析的解法 152

5.2.5 斜格法(Lattice Method)及其改进 153

5.3 线谱对(LSP)参数 160

5.3.1 线谱对分析原理 160

5.3.2 线谱对分析的求解 162

5.4 倒谱系数及差分参数 163

5.4.1 LPCC参数 163

5.4.2 MFCC参数 164

5.4.3 ASCC参数 166

5.4.4 差分参数 167

5.5 感觉加权的线性预测(PLP)特征 168

5.5.1 PLP参数 168

5.5.2 RASTA-PLP参数 169

5.6 高阶信号谱类特征 170

5.6.1 WV谱的定义及其主要性质 170

5.6.2 WV谱计算式的一些变形 171

参考文献 173

第6章 编解码失配补偿 175

6.1 编解码失配影响 175

6.1.1 VoIP系统语音传输 176

6.1.2 编解码失配对说话人辨认系统的影响 176

6.1.3 编解码失配对说话人确认系统的影响 177

6.1.4 特征参数的编码失真 179

6.2 常用编解码失配补偿方法 180

6.2.1 失配补偿的基本思想 181

6.2.2 经验补偿技术 181

6.2.3 盲补偿 182

6.2.4 基于特征及模型的补偿 184

6.3 基于编码失真的加权GMM模型算法 188

6.3.1 加权GMM模型 189

6.3.2 权重矩阵C的确定 191

6.3.3 实验及分析 191

6.4 编码自动匹配方法 192

6.4.1 编码自动匹配方法的基本思想 192

6.4.2 语音编码检测器 193

6.4.3 实验及分析 193

6.5 统计匹配特征变换失配补偿算法 195

6.5.1 统计匹配的基本思想 195

6.5.2 线性特征变换式 195

6.5.3 非线性特征变换式 196

6.5.4 M-step迭代根的求解 199

6.5.5 基于统计匹配的编解码失配补偿实验 201

6.6 分数归一化补偿算法 204

6.6.1 分数归一化算法的基本思想 204

6.6.2 实验及分析 206

参考文献 207

第7章 通话模式分析 210

7.1 通话模式分析的基本概念与研究内容 210

7.1.1 通话模式分析的定义 211

7.1.2 通话模式分析的关键技术 211

7.1.3 通话模式分析的研究内容 212

7.2 通话模式分析的基本方法 215

7.2.1 基于KL2距离的音频分割算法 215

7.2.2 基于隐马尔可夫模型的音频分割算法 216

7.2.3 基于贝叶斯信息准则的音频分割算法 217

7.2.4 基于熵变化趋势检测的音频分割算法 219

7.2.5 基于可信度变化趋势检测的音频分割算法 221

7.3 多人的说话人识别方法 225

7.3.1 多人说话人识别的基本思想 225

7.3.2 说话人分段 226

7.3.3 说话人聚类 227

7.3.4 彩铃的检测与分割算法 227

7.4 电信网特有噪声检测算法 230

参考文献 232

第8章 VoIP协议分析及数据获取 234

8.1 VoIP协议简介 234

8.2 SIP协议通信流程及识别 235

8.2.1 SIP协议的功能 235

8.2.2 SIP协议的通信方式 236

8.2.3 基于SIP协议的VoIP信息识别 237

8.3 H.323协议通信流程与识别 240

8.3.1 H.323通信流程 240

8.3.2 H.323协议的动态特征 244

8.3.3 H.323的识别方法 248

参考文献 251

第9章 丢包处理 252

9.1 网络丢包模型 252

9.2 网络丢包对说话人识别的影响 254

9.2.1 合成语音说话人识别实验 254

9.2.2 解码参数说话人识别实验 255

9.2.3 压缩码流说话人识别实验 256

9.3 网络丢包处理技术 258

9.3.1 丢包恢复技术 258

9.3.2 丢包隐藏技术 261

9.4 语音识别系统中的丢包补偿方法 265

9.4.1 丢包检测 265

9.4.2 丢包补偿 266

9.4.3 有效性分析 268

9.4.4 丢包补偿实验结果 268

参考文献 270

第10章 码流特征提取 273

10.1 码流语音识别的原理 273

10.2 G.729码流特征提取 274

10.2.1 编码原理 274

10.2.2 基于解码参数的G.729码流特征提取 275

10.2.3 基于帧结构映射的G.729码流特征提取 279

10.3 G.723.1码流特征提取 280

10.3.1 编码原理 280

10.3.2 基于解码参数的G.723.1码流特征提取 281

10.3.3 基于帧结构映射的G.723.1码流特征提取 282

10.4 GSM码流特征提取 283

10.4.1 编码原理 283

10.4.2 基于解码参数的GSM码流特征提取 284

10.4.3 基于帧结构映射的GSM码流特征提取 286

10.5 码流特征提取实验 287

10.5.1 解码参数实验 287

10.5.2 基于帧结构映射参数实验 288

参考文献 289

第11章 特征选择与特征变换 291

11.1 特征选择的基本概念 291

11.1.1 特征矢量和特征空间 292

11.1.2 特征的形成 292

11.1.3 特征的特点 292

11.1.4 特征的选择及作用 293

11.2 类的可分性判据 294

11.2.1 基于距离的可分性判据 294

11.2.2 基于概率密度函数的可分性判据 297

11.3 特征选择的方法 299

11.3.1 最优搜索算法 300

11.3.2 次优搜索算法 301

11.3.3 遗传算法 303

11.4 线性判别分析——LDA 306

11.4.1 线性判别分析的概念 307

11.4.2 广义线性判别函数 308

11.4.3 Fisher线性判别 310

11.4.4 多类问题 314

11.5 主分量分析——PCA 315

11.5.1 基于K-L变换的主分量分析 316

11.5.2 随机矢量的K-L展开 316

11.5.3 基于K-L变换的降维 318

11.6 独立分量分析 319

11.6.1 线性独立分量分析 319

11.6.2 线性独立分量分析算法 324

11.6.3 独立分量分析的预处理 329

11.6.4 非线性独立分量分析 330

11.7 特征变换举例 334

11.7.1 特征变换方法 334

11.7.2 特征变换实验 336

参考文献 337

第12章 语音识别的模型 339

12.1 动态时间规整 339

12.1.1 动态时间规整的定义 339

12.1.2 动态规划技术(DP) 340

12.1.3 DTW算法的改进 342

12.2 隐马尔可夫模型 344

12.2.1 隐马尔可夫模型的定义 344

12.2.2 HMM中的3个基本问题及其解决方案 346

12.2.3 隐马尔可夫模型的类型 352

12.2.4 HMM算法实现的问题 352

12.3 分类模型——SVM 362

12.3.1 学习问题 362

12.3.2 学习过程一致性的条件 363

12.3.3 学习过程收敛速度的界 365

12.3.4 结构风险最小归纳原理 367

12.3.5 支持矢量机 370

12.4 人工神经网络 377

12.4.1 神经元的基本模型 377

12.4.2 前向网络 379

12.4.3 反馈网络 382

12.5 高斯混合模型(GMM) 387

12.5.1 高斯混合模型的定义 388

12.5.2 参数调整算法——EM算法 388

12.6 动态贝叶斯网络 390

12.6.1 贝叶斯网络 391

12.6.2 动态贝叶斯网络 393

12.6.3 动态贝叶斯网络在语音识别中的应用 395

12.6.4 基于DBN的语音识别软件GMTK 398

参考文献 400

第13章 稳健性识别技术 402

13.1 稳健性识别技术概述 402

13.2 语音增强 405

13.2.1 多带谱减法(Multi-Band Spectral Subtraction,MBSS) 406

13.2.2 短时谱估计(Short Time Spectral Estimator) 407

13.2.3 瞬时维纳滤波(Instantaneous Wiener Filtering,IWF) 407

13.2.4 子空间法(Subspace) 408

13.3 信道补偿 410

13.3.1 多重风格训练 411

13.3.2 HMM分解 411

13.3.3 并行模型组合PMC(Parallel Model Combination) 413

13.3.4 矢量泰勒级数(Vector Taylor Series,VTS)方法 417

13.3.5 雅可比自适应(Jacobian Adaptation) 420

13.3.6 其他补偿方法 421

13.4 说话人自适应技术 421

13.4.1 最大似然度线性回归算法 423

13.4.2 最大后验概率算法 431

13.4.3 说话人聚类 435

13.5 说话人归一化技术 442

13.5.1 说话人归一化技术原理 442

13.5.2 频率折叠因子的选取 444

13.5.3 折叠方法的选取 447

参考文献 452

第14章 语音识别应用 458

14.1 说话人识别 458

14.1.1 说话人识别的基本原理 458

14.1.2 特征参数的统计评价 460

14.1.3 判决规则与性能评价标准 461

14.1.4 说话人识别系统举例 464

14.2 语言辨识 465

14.2.1 语言辨识的基本原理 465

14.2.2 语言辨识的主要方法 466

14.2.3 语言辨识系统举例 471

14.3 关键词识别 473

14.3.1 关键词识别的基本原理 473

14.3.2 关键词识别及其与连续语音识别的关系 475

14.3.3 关键词识别的基本问题 475

14.3.4 关键词识别系统的主要技术难点 477

14.3.5 关键词识别系统举例 478

14.4 连续语音识别 479

14.4.1 连续语音识别的基本原理 479

14.4.2 连续语音识别中的搜索策略 481

14.4.3 连续语音识别系统举例 484

14.5 情感识别 485

14.5.1 情感识别的基本原理 485

14.5.2 情感分类 486

14.5.3 情感语音数据采集 487

14.5.4 情感特征分析 488

14.5.5 情感识别方法 489

参考文献 490