《现代语音信号处理》PDF下载

  • 购买积分:14 如何计算积分?
  • 作  者:胡航编著
  • 出 版 社:北京:电子工业出版社
  • 出版年份:2014
  • ISBN:9787121226250
  • 页数:414 页
图书介绍:本书系统介绍了语音信号处理的基础、概念、原理、方法与应用,以取得的新进展,同时介绍了其背景知识、发展概况、研究现状、应用前景和发展趋势与方向。本书系统介绍了语音信号处理的基础、概念、原理、方法与应用,以取得的新进展,同时介绍了其背景知识、发展概况、研究现状、应用前景和发展趋势与方向。

第一篇 语音信号处理基础 1

第1章 绪论 1

1.1 语音信号处理的发展历史 1

1.2 语音信号处理的主要研究内容及发展概况 3

1.3 本书的内容 7

思考与复习题 8

第2章 语音信号处理的基础知识 9

2.1 概述 9

2.2 语音产生的过程 9

2.3 语音信号的特性 12

2.3.1 语言和语音的基本特性 12

2.3.2 语音信号的时间波形和频谱特性 13

2.3.3 语音信号的统计特性 15

2.4 语音产生的线性模型 16

2.4.1 激励模型 17

2.4.2 声道模型 18

2.4.3 辐射模型 20

2.4.4 语音信号数字模型 21

2.5 语音产生的非线性模型 22

2.5.1 FM-AM模型的基本原理 22

2.5.2 Teager能量算子 22

2.5.3 能量分离算法 23

2.5.4 FM-AM模型的应用 24

2.6 语音感知 24

2.6.1 听觉系统 24

2.6.2 神经系统 25

2.6.3 语音感知 26

思考与复习题 29

第二篇 语音信号分析 30

第3章 时域分析 30

3.1 概述 30

3.2 数字化和预处理 31

3.2.1 取样率和量化字长的选择 31

3.2.2 预处理 33

3.3 短时能量分析 34

3.4 短时过零分析 36

3.5 短时相关分析 39

3.5.1 短时自相关函数 39

3.5.2 修正的短时自相关函数 40

3.5.3 短时平均幅差函数 42

3.6 语音端点检测 42

3.6.1 双门限前端检测 43

3.6.2 多门限过零率前端检测 43

3.6.3 基于FM-AM模型的端点检测 43

3.7 基于高阶累积量的语音端点检测 44

3.7.1 噪声环境下的端点检测 44

3.7.2 高阶累积量与高阶谱 44

3.7.3 基于高阶累积量的端点检测 46

思考与复习题 48

第4章 短时傅里叶分析 50

4.1 概述 50

4.2 短时傅里叶变换 50

4.2.1 短时傅里叶变换的定义 50

4.2.2 傅里叶变换的解释 51

4.2.3 滤波器的解释 54

4.3 短时傅里叶变换的取样率 55

4.4 语音信号的短时综合 56

4.4.1 滤波器组求和法 56

4.4.2 FFT求和法 58

4.5 语谱图 59

思考与复习题 61

第5章 倒谱分析与同态滤波 62

5.1 概述 62

5.2 同态信号处理的基本原理 62

5.3 复倒谱和倒谱 63

5.4 语音信号两个卷积分量复倒谱的性质 64

5.4.1 声门激励信号 64

5.4.2 声道冲激响应序列 65

5.5 避免相位卷绕的算法 66

5.5.1 微分法 67

5.5.2 最小相位信号法 67

5.5.3 递推法 69

5.6 语音信号复倒谱分析实例 70

5.7 Mel频率倒谱系数 72

思考与复习题 73

第6章 线性预测分析 74

6.1 概述 74

6.2 线性预测分析的基本原理 74

6.2.1 基本原理 74

6.2.2 语音信号的线性预测分析 75

6.3 线性预测方程组的建立 76

6.4 线性预测分析的解法(1)——自相关和协方差法 77

6.4.1 自相关法 78

6.4.2 协方差法 79

6.4.3 自相关和协方差法的比较 80

6.5 线性预测分析的解法(2)——格型法 81

6.5.1 格型法基本原理 81

6.5.2 格型法的求解 83

6.6 线性预测分析的应用——LPC谱估计和LPC复倒谱 85

6.6.1 LPC谱估计 85

6.6.2 LPC复倒谱 87

6.6.3 LPC谱估计与其他谱分析方法的比较 88

6.7 线谱对(LSP)分析 89

6.7.1 线谱对分析原理 89

6.7.2 线谱对参数的求解 91

6.8 极零模型 91

思考与复习题 93

第7章 语音信号的非线性分析 94

7.1 概述 94

7.2 时频分析 94

7.2.1 短时傅里叶变换的局限 95

7.2.2 时频分析 96

7.3 小波分析 97

7.3.1 概述 97

7.3.2 小波变换的定义 97

7.3.3 典型的小波函数 99

7.3.4 离散小波变换 100

7.3.5 小波多分辨分析与Mallat算法 100

7.4 基于小波的语音分析 101

7.4.1 语音分解与重构 101

7.4.2 清/浊音判断 102

7.4.3 语音去噪 102

7.4.4 听觉系统模拟 103

7.4.5 小波包变换在语音端点检测中的应用 103

7.5 混沌与分形 104

7.6 基于混沌的语音分析 105

7.6.1 语音信号的混沌性 105

7.6.2 语音信号的相空间重构 106

7.6.3 语音信号的Lyapunov指数 108

7.6.4 基于混沌的语音、噪声判别 109

7.7 基于分形的语音分析 110

7.7.1 概述 110

7.7.2 语音信号的分形特征 111

7.7.3 基于分形的语音分割 112

思考与复习题 113

第8章 语音特征参数估计 114

8.1 基音估计 114

8.1.1 自相关法 115

8.1.2 并行处理法 117

8.1.3 倒谱法 118

8.1.4 简化逆滤波法 120

8.1.5 高阶累积量法 122

8.1.6 小波变换法 123

8.1.7 基音检测的后处理 124

8.2 共振峰估计 125

8.2.1 带通滤波器组法 125

8.2.2 DFT法 126

8.2.3 倒谱法 127

8.2.4 LPC法 129

8.2.5 FM-AM模型法 130

思考与复习题 131

第9章 矢量量化 132

9.1 概述 132

9.2 矢量量化的基本原理 133

9.3 失真测度 134

9.3.1 欧氏距离——均方误差 135

9.3.2 LPC失真测度 135

9.3.3 识别失真测度 137

9.4 最佳矢量量化器和码本的设计 137

9.4.1 矢量量化器最佳设计的两个条件 137

9.4.2 LBG算法 138

9.4.3 初始码书生成 138

9.5 降低复杂度的矢量量化系统 139

9.5.1 无记忆的矢量量化系统 140

9.5.2 有记忆的矢量量化系统 142

9.6 语音参数的矢量量化 144

9.7 模糊矢量量化 145

9.7.1 模糊集概述 146

9.7.2 模糊矢量量化 147

9.8 遗传矢量量化 148

9.8.1 遗传算法 148

9.8.2 遗传矢量量化 150

思考与复习题 151

第10章 隐马尔可夫模型 152

10.1 概述 152

10.2 隐马尔可夫模型的引入 153

10.3 隐马尔可夫模型的定义 155

10.4 隐马尔可夫模型三个问题的求解 156

10.4.1 概率的计算 157

10.4.2 HMM的识别 159

10.4.3 HMM的训练 160

10.4.4 EM算法 161

10.5 HMM的选取 162

10.5.1 HMM的类型选择 162

10.5.2 输出概率分布的选取 163

10.5.3 状态数的选取 163

10.5.4 初值选取 163

10.5.5 训练准则的选取 165

10.6 HMM应用与实现中的一些问题 166

10.6.1 数据下溢 166

10.6.2 多输出(观察矢量序列)情况 166

10.6.3 训练数据不足 167

10.6.4 考虑状态持续时间的HMM 168

10.7 HMM的结构和类型 170

10.7.1 HMM的结构 170

10.7.2 HMM的类型 172

10.7.3 按输出形式分类 173

10.8 HMM的相似度比较 174

思考与复习题 175

第三篇 语音信号处理技术与应用 176

第11章 语音编码 176

11.1 概述 176

11.2 语音信号的压缩编码原理 178

11.2.1 语音压缩的基本原理 178

11.2.2 语音通信中的语音质量 179

11.2.3 两种压缩编码方式 180

11.3 语音信号的波形编码 180

11.3.1 PCM及APCM 180

11.3.2 预测编码及自适应预测编码 183

11.3.3 ADPCM及ADM 185

11.3.4 子带编码(SBC) 187

11.3.5 自适应变换编码(ATC) 189

11.4 声码器 191

11.4.1 概述 191

11.4.2 声码器的基本结构 192

11.4.3 通道声码器 192

11.4.4 同态声码器 194

11.5 LPC声码器 195

11.5.1 LPC参数的变换与量化 196

11.5.2 LPC-10 197

11.5.3 LPC-10e 198

11.5.4 变帧率LPC声码器 199

11.6 各种常规语音编码方法的比较 200

11.6.1 波形编码的信号压缩技术 200

11.6.2 波形编码与声码器的比较 200

11.6.3 各种声码器的比较 201

11.7 基于LPC模型的混合编码 201

11.7.1 混合编码采用的技术 202

11.7.2 MPLPC 204

11.7.3 RPELPC 207

11.7.4 CELP 209

11.7.5 CELP的改进形式 211

11.7.6 基于分形码本的CELP 213

11.8 基于正弦模型的混合编码 214

11.8.1 正弦变换编码 215

11.8.2 多带激励(MBE)编码 215

11.9 极低速率语音编码 217

11.9.1 400~1.2 kb/s数码率的声码器 217

11.9.2 识别-合成型声码器 218

11.1 0语音编码的性能指标 219

11.1 1语音编码的质量评价 221

11.1 1.1 主观评价方法 221

11.1 1.2 客观评价方法 222

11.1 1.3 主客观评价方法的结合 225

11.1 1.4 基于多重分形的语音质量评价 226

11.1 2语音编码国际标准 227

11.1 3语音编码与图像编码的关系 228

小结 229

思考与复习题 229

第12章 语音合成 231

12.1 概述 231

12.2 语音合成原理 232

12.2.1 语音合成的方法 232

12.2.2 语音合成的系统特性 234

12.3 共振峰合成 235

12.3.1 共振峰合成原理 235

12.3.2 共振峰合成实例 237

12.4 LPC合成 237

12.5 PSOLA语音合成 239

12.5.1 概述 239

12.5.2 PSOLA的原理 240

12.5.3 PSOLA的实现 240

12.5.4 PSOLA的改进 242

12.5.5 PSOLA语音合成系统的发展 243

12.6 文语转换系统 243

12.6.1 组成与结构 243

12.6.2 文本分析 244

12.6.3 韵律控制 245

12.6 4语音合成 248

12.6.5 TTS系统的一些问题 248

12.7 基于HMM的参数化语音合成 249

12.8 语音合成的研究现状和发展趋势 253

12.9 语音合成硬件简介 255

思考与复习题 256

第13章 语音识别 257

13.1 概述 257

13.2 语音识别原理 260

13.3 动态时间规整 264

13.4 基于有限状态矢量量化的语音识别 266

13.5 孤立词识别系统 267

13.6 连接词识别 270

13.6.1 基本原理 270

13.6.2 基于DTW的连接词识别 271

13.6.3 基于HMM的连接词识别 273

13.6.4 基于分段K-均值的最佳词串分割及模型训练 273

13.7 连续语音识别 274

13.7.1 连续语音识别存在的困难 274

13.7.2 连续语音识别的训练及识别方法 275

13.7.3 连续语音识别的整体模型 276

13.7.4 基于HMM统一框架的大词汇非特定人连续语音识别 277

13.7.5 声学模型 278

13.7.6 语言学模型 280

13.7.7 最优路径搜索 282

13.8 说话人自适应 284

13.8.1 MAP算法 285

13.8.2 基于变换的自适应方法 285

13.8.3 基于说话人分类的自适应方法 286

13.9 鲁棒的语音识别 287

13.1 0关键词确认 289

13.1 1可视语音识别 291

13.1 1.1 概述 291

13.1 1.2 机器自动唇读 291

13.1 1.3 双模态语音识别 293

13.1 2语音理解 296

13.1 2.1 MAP语义解码 297

13.1 2.2 语义结构的表示 297

13.1 2.3 意图解码器 298

小结 299

思考与复习题 299

第14章 说话人识别 300

14.1 概述 300

14.2 特征选取 301

14.2.1 说话人识别所用的特征 301

14.2.2 特征类型的优选准则 302

14.2.3 常用的特征参数 303

14.3 说话人识别系统 303

14.3.1 说话人识别系统的结构 303

14.3.2 说话人识别的基本方法概述 304

14.4 说话人识别系统实例 305

14.4.1 DTW型说话人识别系统 305

14.4.2 应用VQ的说话人识别系统 306

14.5 基于HMM的说话人识别 307

14.6 基于GMM的说话人识别 310

14.7 说话人识别中需进一步研究的问题 312

14.8 语种辨识 313

思考与复习题 316

第15章 智能信息处理技术在语音信号处理中的应用 317

15.1 人工神经网络 317

15.1.1 概述 317

15.1.2 神经网络的基本概念 319

15.2 神经网络的模型结构 320

15.2.1 单层感知机 320

15.2.2 多层感知机 321

15.2.3 自组织映射神经网络 323

15.2.4 时延神经网络 324

15.2.5 循环神经网络 325

15.3 神经网络与传统方法的结合 325

15.3.1 概述 325

15.3.2 神经网络与DTW 326

15.3.3 神经网络与VQ 326

15.3.4 神经网络与HMM 327

15.4 神经网络语音识别 328

15.4.1 静态语音识别 328

15.4.2 连续语音识别 330

15.5 基于神经网络的说话人识别 330

15.6 基于神经网络的语音信号非线性预测编码 332

15.6.1 语音信号的非线性预测 332

15.6.2 基于MLP的非线性预测编码 333

15.6.3 基于RNN的非线性预测编码 334

15.7 基于神经网络的语音合成 335

15.8 支持向量机 336

15.8.1 概述 336

15.8.2 支持向量机的基本原理 337

15.9 基于支持向量机的语音分类识别 339

15.1 0基于支持向量机的说话人识别 340

15.1 0.1 基于支持向量机的说话人辨认 340

15.1 0.2 基于支持向量机的说话人确认 340

15.1 1基于混沌神经网络的语音识别 342

15.1 1.1 混沌神经网络 342

15.1 1.2 基于混沌神经网络的语音识别 342

15.1 2分形在语音识别中的应用 344

15.1 3智能优化算法在语音信号处理中的应用 344

15.1 4各种智能信息处理技术的融合与集成 346

15.1 4.1 模糊系统与神经网络的融合 347

15.1 4.2 神经网络与遗传算法的融合 347

15.1 4.3 模糊逻辑、神经网络及遗传算法的融合 348

15.1 4.4 神经网络、模糊逻辑及混沌的融合 349

15.1 4.5 混沌与遗传算法的融合 349

思考与复习题 350

第16章 语音增强 351

16.1 概述 351

16.2 语音、人耳感知及噪声的特性 352

16.3 滤波器法 354

16.3.1 固定滤波器 354

16.3.2 变换技术 354

16.3.3 自适应噪声对消 354

16.4 非线性处理 357

16.5 基于相关特性的语音增强 358

16.6 减谱法 359

16.6.1 减谱法的基本原理 359

16.6.2 减谱法的改进形式 360

16.7 基于Wiener滤波的语音增强 361

16.8 基于语音产生模型的语音增强 362

16.9 基于小波的语音增强 364

16.9.1 概述 364

16.9.2 基于小波的语音增强 364

16.9.3 基于小波包的语音增强 366

16.1 0基于信号子空间分解的语音增强 367

16.1 1语音增强的一些新发展 370

小结 371

思考与复习题 372

第17章 基于麦克风阵列的语音信号处理 373

17.1 概述 373

17.2 麦克风阵列语音处理技术的难点 374

17.3 声源定位 375

17.3.1 去混响 375

17.3.2 近场模型 376

17.3.3 声源定位 377

17.4 语音增强 381

17.4.1 概述 381

17.4.2 方法与技术 382

17.4.3 应用 386

17.4.4 本节小结 387

17.5 语音盲分离 387

17.5.1 瞬时线性混合模型 388

17.5.2 卷积混合模型 393

17.5.3 非线性混合模型 395

17.5.4 需进一步研究的问题 396

思考与复习题 396

汉英名词术语对照 398

参考文献 407