《现代语音处理技术及应用》PDF下载

购买积分：12 如何计算积分？
作　　者：张雄伟等编著
出版社：北京：机械工业出版社
出版年份：2003
ISBN：7111127951
页数：320 页

图书介绍：本书介绍了现代语言信号处理的基础、原理、方法。

点击购买此书全本PDF电子书

第1 章绪论 1

1.1 概述 1

1.2 语音处理的研究方法 2

1.3 语音处理的应用 2

1.3.1 语音压缩编码 3

1.3.2 语音识别 3

1.3.3 说话人识别 4

1.3.4 语音理解 4

1.3.5 语音合成 5

1.3.6 语音增强 5

1.4 本书的内容与组织 6

1.5 习题 6

第2章语音信号处理基础 7

2.1 语音的波形及特性 7

2.2 语音的产生 9

2.2.1 发声器官 9

2.2.2 清音、浊音和爆破音 9

2.2.3 基音频率 10

2.2.4 共振峰 10

2.2.5 语谱图 11

2.3 汉语语音的基本特性 11

2.3.1 声母和韵母 11

2.3.2 元音和辅音 13

2.3.3 汉语的四声 13

2.4 语音信号的简化数字模型 14

2.5 听觉系统和听觉特性 16

2.5.1 听觉系统 16

2.5.2 听觉特性 17

2.6 小结 18

2.7 习题 18

第3章语音信号的时域分析 19

3.1 概述 19

3.2 语音短时分析技术 19

3.3 短时能量和平均幅度 21

3.4 短时平均过零率 24

3.5 短时自相关分析 26

3.5.1 短时自相关函数 26

3.5.2 语音信号的短时自相关函数 27

3.5.3 修正的短时自相关函数 29

3.6 语音端点检测 30

3.7 基音周期估计 31

3.7.1 基于短时自相关函数的基音周期估计 32

3.7.2 基于短时平均幅度差函数（AMDF）的基音周期估计 33

3.8 小结 34

3.9 习题 34

第4章语音信号的变换域分析 36

4.1 语音信号的频域分析 36

4.1.1 短时傅里叶变换 36

4.1.2 短时傅里叶反变换 42

4.1.3 语谱图 44

4.1.4 频域分析应用——频域基音检测 45

4.2 语音信号的同态处理 47

4.2.1 卷积同态系统 47

4.2.2 复倒谱和倒谱 49

4.2.3 复倒谱分析 50

4.2.4 复倒谱与倒谱的计算 51

4.2.5 同态处理应用——同态声码器 54

4.3 语音信号的非线性处理 58

4.3.1 小波变换及应用 58

4.3.2 混沌、分形处理及应用 66

4.4 分形内插语音编码算法 71

4.4.1 分形插值函数 72

4.4.2 参数选择 72

4.4.3 系统设计 73

4.5 小结 74

4.6 习题 74

第5章语音信号线性预测分析 76

5.1 LP分析的基本原理 76

5.2 LP正则方程的自相关解法和自协方差解法 78

5.2.1 LP正则方程的自相关解法 78

5.2.2 LP正则方程的自协方差解法 79

5.2.3 自相关方程的杜宾递推算法 80

5.3 模型增益G的确定 84

5.4 线谱对（LSP）分析 86

5.4.1 LSP的特点和定义 86

5.4.2 LP参数到LSP参数的转换 87

5.4.3 LSP参数到LP参数的转换 89

5.5 LP导出的其他语音参数 90

5.5.1 部分相关系数 90

5.5.2 对数面积比系数 91

5.5.3 LP复倒谱与倒谱 91

5.6 LP分析的频域解释 92

5.7 小结 94

5.8 习题 94

第6章矢量量化 97

6.1 概述 97

6.1.1 矢量量化的定义 97

6.1.2 最佳矢量量化器 98

6.1.3 最佳矢量量化器的设计 99

6.2 无记忆矢量量化器 100

6.2.1 全搜索矢量量化器 101

6.2.2 树搜索矢量量化器 101

6.2.3 多级矢量量化器 102

6.2.4 波形／增益矢量量化器 102

6.2.5 分离均值矢量量化器 103

6.3 有记忆矢量量化器 103

6.4 特征矢量及失真测度 105

6.4.1 特征矢量 105

6.4.2 失真测度 107

6.5 小结 110

6.6 习题 111

第7章语音编码 112

7.1 语音编码的基本概念 112

7.2 波形编码 113

7.2.1 脉冲编码调制（PCM） 113

7.2.2 差分脉冲编码调制（DPCM） 118

7.2.3 增量调制（△M） 120

7.2.4 波形编码中的自适应技术 122

7.2.5 子带编码（SBC） 126

7.3 参数编码和混合编码 131

7.3.1 基于开环搜索的LPC语音编码 131

7.3.2 基于ABS法的LPC编码 137

7.3.3 多带激励（MBE） 148

7.4 混合激励线性预测（MELP） 157

7.4.1 参数的选取和比特分配 158

7.4.2 分析部分 159

7.4.3 参数量化编码部分 163

7.4.4 合成部分 167

7.4.5 语音的合成 170

7.4.6 MELP算法的性能评估 171

7.5 语音编码的质量评估 172

7.5.1 语音算法音质的主观评价方法 172

7.5.2 语音算法音质的客观评价方法 173

7.5.3 客观评价方法与主观评价方法的拟合 177

7.6 小结 178

7.7 习题 178

第8章语音识别 180

8.1 概述 180

8.1.1 发展简介 180

8.1.2 语音识别的指标 181

8.2 动态时间规整 182

8.3 隐马尔可夫模型 184

8.3.1 马尔可夫过程 184

8.3.2 隐马尔可夫模型 184

8.3.3 隐马尔可夫模型的基本问题 185

8.4 HMM的基本问题 186

8.4.1 K－均值聚类算法 186

8.4.2 EM算法 186

8.4.3 HMM的估计问题 187

8.4.4 HMM的解码问题 188

8.4.5 HMM的学习问题 188

8.5 连续HMM和半连续HMM 190

8.5.1 连续HMM 190

8.5.2 半连续HMM 190

8.6 HMM相似度的比较 191

8.7 HMM的应用 192

8.7.1 初值选择 192

8.7.2 拓扑选择 193

8.7.3 训练准则选择 195

8.7.4 多观察序列的训练 195

8.7.5 HMM的计算优化 196

8.8 孤立词识别 197

8.9 连接词识别 198

8.9.1 采用DTW技术的连接词识别 199

8.9.2 采用HMM算法的连接词识别 201

8.10 连续语音识别 202

8.10.1 声学模型 203

8.10.2 大词汇量的语言模型 204

8.10.3 最佳路径搜索算法 206

8.11 说话人自适应技术 208

8.11.1 MAP算法 209

8.11.2 基于变换的自适应算法 210

8.11.3 基于说话人分类的自适应算法 211

8.12 关键词确认 212

8.13 说话人识别 213

8.13.1 性能指标 214

8.13.2 表征说话人特点的基本特征 215

8.13.3 高斯混合模型（GaussianMixtureModel,GMM） 216

8.14 人工神经网络在语音识别中的应用 218

8.14.1 人工神经网络基本概念 218

8.14.2 神经网络在语音识别中的应用 219

8.15 鲁棒语音识别的研究 223

8.15.1 概述 223

8.15.2 鲁棒语音特征的研究 224

8.15.3 特征补偿技术 225

8.15.4 模型匹配技术 225

8.15.5 基于人耳听觉的信号处理 225

8.15.6 听觉视觉双模态语音识别 226

8.16 小结 226

8.17 习题 227

第9章语音合成 229

9.1 概述 229

9.1.1 发展历史 229

9.1.2 组成和分类 230

9.1.3 性能指标 231

9.2 文－语转换系统 232

9.3 文本分析 234

9.4 韵律生成 235

9.4.1 韵律 236

9.4.2 韵律的生成和抽象处理 238

9.5 语音生成 239

9.5.1 发音器官参数合成法（ArticulatorySynthesis） 240

9.5.2 线性预测参数合成法（LinearPredictionSynthesis） 240

9.5.3 共振峰合成法（FormantSythesis） 241

9.5.4 波形拼接合成法 242

9.6 小结 246

9.6.1 语音合成系统的发展 246

9.6.2 语音合成的发展趋势 247

9.7 习题 247

第10章语音增强 248

10.1 概述 248

10.1.1 语音和噪声特性 248

10.1.2 语音增强算法分类 250

10.2 基于语音谱特征的谐波增强算法 250

10.3 基于短时谱估计的增强算法 251

10.3.1 噪声对消法 251

10.3.2 短时谱估计 252

10.3.3 谱相减法 253

10.3.4 维纳滤波 254

10.3.5 短时谱幅度的MMSE估计 255

10.4 基于信号子空间的增强算法 257

10.4.1 信号和噪声的线性模型和子空间描述 258

10.4.2 语音信号线性估计器 259

10.5 基于语音生成模型的增强算法 262

10.5.1 基于LPC全极点模型的增强算法 262

10.5.2 最大后验概率估计法 263

10.5.3 卡尔曼滤波法 264

10.6 语音增强的新发展 265

10.6.1 基于神经网络的语音增强 265

10.6.2 基于HMM的语音增强 265

10.6.3 基于听觉感知的语音增强 265

10.6.4 基于多分辨率分析的语音增强 266

10.7 小结 266

10.8 习题 267

第11章语音通信应用中的关键技术 268

11.1 不连续传输（DTX） 268

11.2 语音激活检测（VAD） 269

11.2.1 语音激活检测 270

11.2.2 拖尾延迟保护（Hangover） 270

11.2.3 舒适噪声产生 270

11.2.4 语音激活检测算法举例 271

11.3 回波抵消 273

11.3.1 回波的产生 273

11.3.2 数字回波抵消的基本原理 274

11.3.3 回波抵消的实现 275

11.4 声码器同步 276

11.5 纠错编码 277

11.5.1 语音信号纠错编码的特性 277

11.5.2 纠错码 278

11.5.3 纠错编码策略 278

11.5.4 CELP的纠错保护方案 279

11.6 小结 280

11.7 习题 280

第12章语音处理的实时实现 281

12.1 DSP语音处理系统 281

12.1.1 实时语音处理系统的构成 281

12.1.2 DSP语音处理系统的特点 282

12.1.3 DSP语音处理系统的设计过程 282

12.1.4 DSP语音处理系统的开发工具 283

12.2 可编程DSP芯片应用基础 284

12.2.1 DSP芯片的基本概念 284

12.2.2 DSP芯片的发展 284

12.2.3 DSP芯片的分类 285

12.2.4 DSP芯片的选择 285

12.2.5 DSP芯片的基本结构 288

12.2.6 常用DSP芯片简介 289

12.3 CCSDSP集成开发环境 292

12.3.1 DSP的开发工具 292

12.3.2 CCS的基本概念 292

12.3.3 CCS的构成 292

12.3.4 CCS的使用 296

12.4 一个基于TMS320VCDSP应用系统的开发 296

12.4.1 系统构成 296

12.4.2 系统软硬件设计 297

12.4.3 系统调试 298

12.4.4 独立系统形成 299

12.5 小结 301

12.6 习题 302

附录 303

附录A 读写语音文件的C语言程序 303

附录B FFT算法的C语言实现程序 305

附录C 8位μ律／16位线性互换的C语言子程序 307

附录D μ律到线性变换表 309

附录E 语音信号线性预测（LPC）子程序 310

附录F 时域波形以及频谱的显示程序 311

附录G 语音信号基音检测程序 312

参考文献 319