《语音信号处理》PDF下载

购买积分：12 如何计算积分？
作　　者：赵力编著（东南大学信息与工程学院）
出版社：北京：机械工业出版社
出版年份：2009
ISBN：9787111271901
页数：331 页

图书介绍：本书介绍了语音信号处理的基础知识。

点击购买此书全本PDF电子书

第1章绪论 1

第2章语音信号处理基础知识 5

2.1 语音和语言 5

2.2 汉语语音学 10

2.2.1 汉语语音的特点 10

2.2.2 汉语的拼音方法 10

2.2.3 汉语音节的一般结构 11

2.2.4 汉语声母的结构 12

2.2.5 汉语韵母的结构 13

2.2.6 声母和韵母的相互作用——音征互载 13

2.2.7 汉语的声调 14

2.3 语音生成系统和语音感知系统 14

2.3.1 语音发音系统 14

2.3.2 语音听觉系统 16

2.4 语音信号生成的数学模型 21

2.4.1 激励模型 21

2.4.2 声道模型 22

2.4.3 辐射模型 25

2.4.4 语音信号的数学模型 26

2.5 语音信号的特性分析 27

2.5.1 语音信号的时域波形和频谱特性 27

2.5.2 语音信号的语谱图 29

2.5.3 语音信号的统计特性 30

2.6 思考与复习题 31

第3章语音信号分析 32

3.1 概述 32

3.2 语音信号的数字化和预处理 32

3.2.1 预滤波、采样、A/D转换 33

3.2.2 预处理 34

3.3 语音信号的时域分析 37

3.3.1 短时能量及短时平均幅度分析 37

3.3.2 短时过零率分析 38

3.3.3 短时相关分析 39

3.3.4 短时平均幅度差函数 43

3.4 语音信号的频域分析 44

3.4.1 利用短时傅里叶变换求语音的短时谱 44

3.4.2 语音的短时谱的临界带特征矢量 46

3.5 语音信号的倒谱分析 47

3.5.1 同态信号处理的基本原理 47

3.5.2 复倒谱和倒谱 48

3.5.3 语音信号倒谱分析实例 50

3.6 语音信号的线性预测分析 53

3.6.1 线性预测分析的基本原理 53

3.6.2 线性预测方程组的求解 55

3.6.3 LPC谱估计和LPC复倒谱 59

3.6.4 线谱对分析 61

3.7 语音信号的小波分析 63

3.7.1 傅里叶变换 64

3.7.2 短时傅里叶变换 65

3.7.3 连续小波变换 65

3.7.4 离散小波变换 66

3.7.5 小波变换的几个实例 68

3.8 基音周期估计 70

3.8.1 自相关法 70

3.8.2 平均幅度差函数法 73

3.8.3 并行处理法 74

3.8.4 倒谱法 76

3.8.5 简化逆滤波法 78

3.8.6 小波变换法 78

3.8.7 基音检测的后处理 79

3.9 共振峰估计 81

3.9.1 带通滤波器组法 81

3.9.2 倒谱法 82

3.9.3 LPC法 83

3.10 思考与复习题 85

第4章矢量量化技术 86

4.1 概述 86

4.2 矢量量化的基本原理 86

4.3 矢量量化的失真测度 89

4.3.1 欧氏距离测度 89

4.3.2 线性预测失真测度 90

4.3.3 识别失真测度 91

4.4 矢量量化器的最佳码本设计 92

4.4.1 LBG算法 92

4.4.2 初始码本的生成 93

4.5 矢量量化技术的优化设计 94

4.6 思考与复习题 96

第5章隐马尔可夫模型 97

5.1 隐马尔可夫模型的引入 97

5.2 隐马尔可夫模型的定义 99

5.2.1 离散Markov过程 99

5.2.2 隐Markov模型 100

5.2.3 HMM的基本元素 100

5.3 隐马尔可夫模型的基本算法 102

5.3.1 前向-后向算法 103

5.3.2 维特比算法 105

5.3.3 Baum-Welch算法 106

5.4 隐马尔可夫模型的各种结构类型 107

5.4.1 按照HMM的状态转移概率矩阵（A参数）分类 107

5.4.2 按照HMM的输出概率分布（B参数）分类 108

5.4.3 其他一些特殊的HMM的形式 110

5.5 隐马尔可夫模型的一些实际问题 111

5.5.1 下溢问题 111

5.5.2 参数的初始化问题 111

5.5.3 提高HMM描述语音动态特性的能力 113

5.5.4 直接利用状态持续时间分布概率的HMM系统 113

5.6 思考与复习题 115

第6章人工神经网络初步 116

6.1 人工神经网络简介 116

6.2 人工神经网络的构成 117

6.2.1 神经元 117

6.2.2 神经元的学习算法 119

6.2.3 网络拓扑 119

6.2.4 网络的学习算法 119

6.3 几种用于模式识别的神经网络模型及其主要算法 120

6.3.1 单层感知器 120

6.3.2 双层感知器 121

6.3.3 多层感知器 122

6.3.4 径向基函数神经网络的分类特性 123

6.3.5 自组织特征映射模型 124

6.3.6 时延神经网络 125

6.3.7 循环神经网络 127

6.3.8 支持向量机 128

6.4 用神经网络进行模式识别的典型做法 129

6.4.1 多输出型 130

6.4.2 单输出型 130

6.5 思考与复习题 130

第7章语音编码 132

7.1 概述 132

7.2 语音信号压缩编码的原理和压缩系统评价 134

7.2.1 语音压缩的基本原理 134

7.2.2 语音编码的关键技术 136

7.2.3 语音压缩系统的性能指标和评测方法 138

7.3 语音信号的波形编码 144

7.3.1 脉冲编码调制 144

7.3.2 自适应预测编码 148

7.3.3 自适应增量调制和自适应差分脉冲编码调制 149

7.3.4 子带编码 153

7.3.5 自适应变换编码 158

7.4 语音信号的参数编码 161

7.4.1 线性预测声码器 161

7.4.2 LPC-10编码器 163

7.5 语音信号的混合编码 167

7.6 现代通信中的语音信号编码方法 169

7.6.1 EVRC算法基本原理 169

7.6.2 EVRC算法概述 170

7.7 思考与复习题 174

第8章语音合成 175

8.1 概述 175

8.2 共振峰合成法 177

8.3 线性预测合成法 179

8.4 语音合成专用硬件简介 182

8.5 PSOLA算法合成语音 185

8.6 文语转换系统 187

8.7 思考与复习题 189

第9章语音识别 191

9.1 概述 191

9.2 语音识别原理和识别系统的组成 195

9.2.1 预处理和参数分析 196

9.2.2 语音识别 198

9.2.3 语音识别系统的基本数据库 200

9.3 动态时间规整 201

9.4 孤立字（词）识别系统 202

9.4.1 基于MQDF的汉语塞音语音识别系统 204

9.4.2 基于概率尺度DP识别方法的孤立字（词）识别系统 206

9.5 连续语音识别系统 207

9.6 连续语音识别系统的性能评测 210

9.6.1 连续语音识别系统的评测方法以及系统复杂性和识别能力的测度 210

9.6.2 综合评估连续语音识别系统时需要考虑的其他因素 213

9.7 思考与复习题 214

第10章说话人识别与语种辨识 215

10.1 概述 215

10.2 说话人识别方法和系统结构 216

10.2.1 预处理 217

10.2.2 说话人识别特征的选取 217

10.2.3 特征参量评价方法 219

10.2.4 模式匹配方法 220

10.2.5 说话人识别中判别方法和阈值的选择 221

10.2.6 说话人识别系统的评价 222

10.3 应用DTW的说话人确认系统 222

10.4 应用VQ的说话人识别系统 223

10.5 应用HMM的说话人识别系统 225

10.5.1 基于HMM的与文本有关的说话人识别 225

10.5.2 基于HMM的与文本无关的说话人识别 226

10.5.3 基于HMM的指定文本型说话人识别 226

10.5.4 说话人识别HMM的学习方法 227

10.5.5 鲁棒的HMM说话人识别技术 227

10.6 应用GMM的说话人识别系统 228

10.6.1 GMM模型的基本概念 228

10.6.2 GMM模型的参数估计 228

10.6.3 训练数据不充分的问题 230

10.6.4 GMM模型的识别问题 230

10.7 说话人识别中尚需进一步探索的研究课题 231

10.8 语种辨识的原理和应用 232

10.8.1 语种辨识的基本原理和方法 232

10.8.2 语种辨识的应用领域 236

10.9 思考与复习题 236

第11章语音转换与语音隐藏 238

11.1 语音转换的原理和应用 238

11.2 常用语音转换的方法 241

11.2.1 频谱特征参数转换 242

11.2.2 基音周期转换 244

11.2.3 韵律信息转换 245

11.3 语音分析模型和语音库的选择 245

11.3.1 语音分析模型 245

11.3.2 语音库的设计 248

11.4 应用GMM的语音转换 250

11.5 语音转换的研究方向 251

11.6 语音信息隐藏的原理及应用 252

11.7 语音信息隐藏的常用方法 254

11.8 语音信息隐藏系统的评价标准 257

11.9 语音信息隐藏需要研究和解决的问题 259

11.10 思考与复习题 260

第12章语音信号中的情感信息处理 261

12.1 概述 261

12.2 语音信号中的情感分类和情感特征分析 261

12.2.1 情感的分类 261

12.2.2 情感特征分析 262

12.3 语音情感识别方法 267

12.3.1 主元分析法 267

12.3.2 神经网络方法 268

12.3.3 混合高斯模型法 269

12.4 情感语音的合成 269

12.5 今后的研究方向 271

12.6 思考与复习题 272

第13章耳语音信号处理 273

13.1 耳语音的声学特征分析 273

13.1.1 音长 274

13.1.2 音高 275

13.1.3 声调 276

13.1.4 共振峰频率 276

13.1.5 耳语音美尔频率倒谱特征参数分析 277

13.2 耳语音增强 278

13.3 耳语音转换正常音 280

13.4 耳语音识别 281

13.4.1 孤立字（词）的耳语音识别 281

13.4.2 耳语音的说话人识别 282

13.5 耳语音的研究方向 282

13.6 思考与复习题 283

第14章语音增强 285

14.1 概述 285

14.2 语音特性、人耳感知特性及噪声特性 286

14.2.1 语音特性 286

14.2.2 人耳感知特性 286

14.2.3 噪声特性 287

14.3 滤波法语音增强技术 287

14.3.1 陷波器法 287

14.3.2 自适应滤波器 288

14.4 利用相关特性的语音增强技术 290

14.4.1 自相关处理抗噪法语音增强技术 290

14.4.2 利用复数帧段主分量特征的降噪方法 291

14.5 非线性处理法语音增强技术 292

14.5.1 中心削波法 292

14.5.2 同态滤波法 293

14.6 减谱法语音增强技术 294

14.6.1 基本原理 294

14.6.2 基本减谱法的改进 295

14.7 利用Weiner滤波法的语音增强技术 296

14.7.1 基本原理 296

14.7.2 Weiner滤波的改进形式 297

14.8 思考与复习题 297

附录A 语音信号LPC美尔倒谱系数（LPCMCC）分析程序 299

附录B 利用HMM的孤立字（词）语音识别程序 307

附录C 汉英名词术语对照 321

参考文献 329