当前位置:首页 > 工业技术
实用语音识别基础
实用语音识别基础

实用语音识别基础PDF电子书下载

工业技术

  • 电子书积分:13 积分如何计算积分?
  • 作 者:王炳锡等著
  • 出 版 社:北京:国防工业出版社
  • 出版年份:2005
  • ISBN:711803746X
  • 页数:363 页
图书介绍:
《实用语音识别基础》目录

目录 1

第1章 绪论 1

1.1 概述 1

1.2 语音识别综述 2

1.3 国内外语音识别的研究现状和发展趋势 5

参考文献 9

2.2.1 语音听觉器官的生理结构 12

2.2 听觉机理和心理 12

2.1 概述 12

第2章 听觉机理和汉语语音基础 12

第一部分 基本理论 12

2.2.2 语音听觉的心理 14

2.3 发音的生理机构与过程 17

2.4 汉语语音基本特性 19

2.4.1 元音和辅音 19

2.4.2 声母和韵母 20

2.4.3 音调(字调) 21

2.4.5 汉语的波形特征 22

2.4.4 音节(字)构成 22

2.4.6 元音的频谱特性 23

2.4.7 辅音的频谱特性 23

2.4.8 汉语语音的韵律特征 24

2.5 小结 25

参考文献 25

3.2 语音信号的数字化和预处理 26

3.2.2 语音信号的预处理 26

3.2.1 语音信号的数字化 26

3.1 概述 26

第3章 语音信号处理方法——时域处理 26

3.3 短时平均能量和短时平均幅度 27

3.3.1 短时平均能量 27

3.3.2 短时平均幅度 28

3.4 短时过零分析 29

3.4.1 短时平均过零率 29

3.4.2 短时上升过零间隔 30

3.5 短时自相关函数和平均幅度差函数 31

3.5.1 短时自相关函数 31

3.5.2 短时平均幅度差函数 32

3.6.1 单个随机变量情况 33

3.6 高阶统计量 33

3.6.2 多个随机变量及随机过程情况 35

3.6.3 高斯过程的高阶累积量 36

3.7 小结 38

参考文献 38

第4章 语音信号处理方法——时频处理 39

4.1 概述 39

4.2 短时傅里叶变换 39

4.2.1 短时傅里叶变换的定义和物理意义 39

4.2.2 基于短时傅里叶变换的语谱图及其时频分辨率 42

4.2.3 短时傅里叶谱的采样 44

4.3 小波变换 45

4.3.1 连续小波变换 46

4.3.2 二进小波变换 46

4.3.3 离散小波变换 47

4.3.4 多分辨分析 50

4.3.5 正交小波包 61

4.4 Wigner分布 66

4.4.1 Wigner分布的定义 66

4.4.2 Wigner分布的一般性质 67

4.4.3 两个信号和的Wigner分布 69

4.4.4 Wigner分布的重建 70

4.4.5 Wigner分布的实现 71

4.5 小结 73

参考文献 74

第5章 语音信号处理方法——倒谱同态处理 75

5.1 概述 75

5.2 复倒谱和倒谱 75

5.2.1 定义 75

5.2.2 复倒谱的性质 76

5.3.2 同态解卷特征系统和同态解卷反特征系统 78

5.3 语音信号的倒谱分析与同态解卷积 78

5.3.1 叠加原理和广义叠加原理 78

5.3.3 同态解卷系统 79

5.3.4 语音的复倒谱及同态解卷 79

5.4 避免相位卷绕的算法 81

5.4.1 最小相位信号法 82

5.4.2 递归法 84

5.5 小结 85

参考文献 86

6.2 语料库的基本特征 88

6.1 概述 88

第二部分 语音识别系统 88

第6章 语料库 88

6.3 语料库的类型 92

6.4 语音语料库 95

6.4.1 语音语料库建立、收集和标注的意义 95

6.4.2 语音语料库的建立和收集要点 95

6.4.3 标准语音库语音特性描述 96

6.5 语料库的设计举例——863汉语普通话语音合成语料库的设计 97

6.5.1 语料库设计原则 97

6.5.2 语音库的标注 97

6.5.3 与语音语料库相关的文字语料库标注 99

6.6 小结 100

参考文献 100

第7章 语音识别的预处理 102

7.1 概述 102

7.2 语音识别单元的选取 102

7.2.1 汉语音节 103

7.2.2 汉语的基本音素 104

7.2.3 汉语半音节 105

7.3.1 基于能量的端点检测 106

7.3 自动分段——端点检测技术 106

7.3.2 基于LPC-10声码器的端点检测 107

7.3.3 基于信息熵的语音端点检测 107

7.3.4 基于频带方差的端点检测 108

7.3.5 基于倒谱特征的带噪语音信号端点检测 109

7.3.6 基于HMM的端点检测方法 113

7.3.7 基于分形技术的端点检测 115

7.3.8 基于自相关相似距离的端点检测 121

7.3.9 基于迟滞编码的端点检测 123

7.3.10 实时端点检测算法 125

7.4 小结 127

参考文献 127

第8章 语音信号特征参数 129

8.1 概述 129

8.2 基音周期 129

8.2.1 自相关法及其改进 130

8.2.2 并行处理法 132

8.2.3 倒谱法 133

8.3.1 线性预测信号模型 134

8.3 线性预测参数 134

8.2.4 简化逆滤波法 134

8.3.2 线性预测误差滤波 136

8.3.3 语音信号的线性预测分析 138

8.3.4 线性预测分析的解法 139

8.3.5 斜格法及其改进 139

8.4 线谱对(LSP)参数 144

8.4.1 线谱对分析原理 144

8.4.2 线谱对分析的求解 146

8.5 LPCC参数 147

8.6 MFCC参数 148

8.7 ASCC参数 149

8.8 感觉加权的线性预测(PLP)特征 149

8.8.1 PLP参数 149

8.8.2 RASTA-PLP参数 150

8.9 动态差分参数 151

8.10 高阶信号谱类特征 152

8.10.1 WV谱的定义及其主要性质 152

8.10.2 WV谱计算式的一些变形 152

参考文献 154

8.11 小结 154

第9章 特征变换 155

9.1 概述 155

9.2 线性判别分析(LDA) 155

9.2.1 线性判别分析的概念 155

9.2.2 广义线性判别函数 157

9.2.3 Fisher线性判别 158

9.2.4 多类问题 161

9.3.1 基于K-L变换的主分量分析 162

9.3 主分量分析(PCA) 162

9.3.2 随机向量的K-L展开 163

9.3.3 基于K-L变换的降维 164

9.4 独立分量分析(ICA) 165

9.4.1 引言 165

9.4.2 线性独立分量分析 165

9.4.3 线性独立分量分析算法 169

9.4.4 独立分量分析的预处理 172

9.4.5 非线性独立分量分析 173

参考文献 175

9.5 小结 175

第10章 语音识别的模型 177

10.1 概述 177

10.2 动态时间规整(DTW) 177

10.2.1 动态规划技术(DP) 177

10.2.2 DTW算法的改进 179

10.3 隐马尔可夫模型(HMM) 180

10.3.1 隐马尔可夫模型的定义 181

10.3.2 HMM中的3个基本问题及其解决方案 182

10.3.3 隐马尔可夫模型的类型 185

10.3.4 HMM算法实现的问题 186

10.4 分类模型(SVM) 193

10.4.1 引言 193

10.4.2 学习问题 193

10.4.3 学习过程一致性的条件 194

10.4.4 学习过程收敛速度的界 195

10.4.5 结构风险最小归纳原理 197

10.4.6 支持向量机 199

10.5.1 引言 204

10.5.2 神经元的基本模型 204

10.5 人工神经网络 204

10.5.3 前向网络 206

10.5.4 反馈网络 208

10.6 高斯混合模型(GMM) 211

10.6.1 高斯混合模型的定义 211

10.6.2 参数调整算法——EM算法 212

10.7 小结 213

参考文献 213

第11章 说话人自适应和说话人归一化技术 216

11.1 概述 216

第三部分 语音识别中关键处理技术 216

11.2 自适应方式的分类 217

11.3 MLLR算法介绍 217

11.3.1 语音特征空间的划分 218

11.3.2 参数的估计 220

11.3.3 对均值矢量的变换 223

11.4 MAP算法介绍 223

11.4.1 MAP算法准则 223

11.4.2 MAP算法公式推导 224

11.4.3 MAP算法讨论 225

11.5.1 说话人归一化技术原理 226

11.5 说话人归一化技术 226

11.5.2 声道长度归一化(VTLN) 227

11.6 小结 232

参考文献 233

第12章 噪声抑制 235

12.1 概述 235

12.2 基于小波变换的噪声抑制 237

12.2.1 利用小波变换去除周期性噪声 237

12.2.2 利用小波变换去除冲激噪声 239

12.2.3 利用小波变换去除宽带噪声 241

12.2.4 小波去噪方法的分析 243

12.3 基于EVRC编码的噪声抑制 244

12.4 基于HMM模型的噪声补偿 248

12.5 小结 249

参考文献 249

第13章 信道补偿 251

13.1 概述 251

13.2 稳健语音识别技术 251

13.2.1 稳健语音识别的提出 251

13.2.2 稳健语音识别的研究现状 252

13.3.1 经验补偿技术 254

13.3 信道补偿技术的主要方法 254

13.3.2 盲补偿 255

13.3.3 基于特征及模型的补偿 256

13.4 信道补偿技术在语音识别中的应用 259

13.4.1 信道补偿技术在汽车内语音识别中的应用 259

13.4.2 基于信道补偿的电话语音识别 260

13.5 小结 261

参考文献 261

14.1 概述 264

第四部分 语音识别应用 264

第14章 说话人识别 264

14.2 说话人识别的基本原理 265

14.2.1 说话人识别系统的典型结构 265

14.2.2 技术原理 265

14.3 说话人识别的特征选择 266

14.3.1 说话人识别系统中常用的特征 266

14.3.2 特征参数的统计评价 267

14.4.1 模板匹配法 268

14.4 说话人识别的主要方法 268

14.4.2 概率统计方法 269

14.4.3 辨别分类器方法 270

14.4.4 混合方法 270

14.5 判决规则与性能评价标准 270

14.5.1 说话人辨认 271

14.5.2 说话人确认(检测) 271

14.6 说话人识别中的稳健技术 273

14.7.2 SVM-GMM混合模型 279

14.7.1 GMM说话人辨认算法 279

14.7 系统举例 279

14.7.3 GMM-UBM说话人确认 283

14.8 小结 285

参考文献 286

第15章 关键词识别 287

15.1 概述 287

15.2 关键词识别及其与连续语音识别的关系 287

15.3 关键词识别原理 288

15.3.1 关键词识别系统组成 288

15.3.2 关键词识别的基本问题 289

15.3.3 关键词识别系统的主要技术难点 290

15.4 搜索策略 291

15.4.1 语音起始和结束点的粗判 291

15.4.2 帧同步的Viterbi解码算法 292

15.4.3 加入驻留惩罚的改进Viterbi解码算法 293

15.4.4 语法节点处的路径合并 294

15.4.5 回溯 295

15.5 识别结果的确认 295

15.5.1 置信度的原理 296

15.5.2 利用反词模型的拒识方法 297

15.5.3 利用识别结果本身信息的拒识方法 298

15.6 系统实现 299

15.6.1 训练和识别系统框图 299

15.6.2 训练系统的具体实现 301

15.6.3 识别系统的具体实现 301

15.7 小结 302

参考文献 303

16.1 概述 305

16.1.1 语言辨识的原理 305

第16章 语言辨识 305

16.1.2 语言辨识技术研究发展的历史 306

16.2 语言辨识所需要的有用信息 306

16.3 针对自动语言辨识的知觉研究 308

16.4 语言辨识的主要方法 309

16.4.1 频谱相似性方法 309

16.4.2 基于韵律信息的方法 309

16.4.3 基于音素识别的方法 310

16.4.4 基于多语言语音单元的方法 310

16.4.6 基于连续语音识别的方法 311

16.4.5 单词层次方法 311

16.4.7 元音系统模型 312

16.5 语言辨识系统举例 313

16.5.1 基于GMM-UBM模型的语言辨识系统 313

16.5.2 基于最小分类误差准则的语言辨识系统 313

16.5.3 基于说话人聚类和高斯混合模型的语言辨识系统 315

16.5.4 基于时频主分量分析和高斯混合模型的语言辨识系统 318

16.5.5 基于高斯混合二元模型的语言辨识系统 320

16.6 语言辨识系统评估 324

16.7 小结 325

参考文献 326

第17章 连续语音识别 328

17.1 概述 328

17.2 连续语音识别整体模型 329

17.3 声学模型 330

17.3.1 语音识别单元的选取 330

17.3.2 基于子词单元HMM的训练 332

17.4 连续语音识别中的搜索策略 333

17.4.1 传统的帧同步算法 333

17.4.2 基于统计知识的帧同步搜索算法原理 334

17.4.3 受词法约束的词搜索树 335

17.4.4 连续语音识别中的双层搜索网络 336

17.5 语言模型 336

17.5.1 基于规则的方法 337

17.5.2 基于统计的方法 337

17.5.3 N-gram模型的平滑 338

17.5.4 基于文法规则的方法和基于统计的方法相结合 340

17.6 小结 340

参考文献 341

附录 英汉名词对照 343

返回顶部