《语音识别及语音可视化技术研究》PDF下载

  • 购买积分:10 如何计算积分?
  • 作  者:韩志艳著
  • 出 版 社:沈阳:东北大学出版社
  • 出版年份:2017
  • ISBN:9787551715393
  • 页数:212 页
图书介绍:本书系统地研究了语音识别与语音可视化问题。全书共分为9章。第1章介绍了课题的国内外研究现状、意义和需要解决的难题,第2章对语音信号的预处理技术进行了介绍,第3章介绍了语音静态特征参数提取方法,第4章介绍了语音动态特征参数提取方法,第5~7章介绍了基于小波包变换和K-L展开的语音识别方法、基于小波混沌神经网络的语音识别方法、基于遗传算法和Fisher投影的语音识别方法等的研究成果,第8章介绍了语音可视化技术,第9章归纳全文并对今后工作提出展望。

第1章 绪论 1

1.1语音信号研究背景概述 1

1.2国内外研究现状 3

1.2.1语音识别技术研究 3

1.2.2语音可视化技术研究 4

1.2.3语音信号特征参数提取技术研究 6

1.3课题的研究意义 7

1.4课题研究需要解决的难题 8

1.5章节安排 9

第2章 语音信号预处理技术 13

2.1概述 13

2.2语音生成系统和语音感知系统 13

2.2.1语音生成系统 13

2.2.2语音感知系统 15

2.3语音信号生成的产生模型 18

2.4语音信号的时域波形 20

2.5语音信号的采样和量化 22

2.6语音信号的预加重 23

2.7语音信号的分帧和加窗处理 23

2.8语音信号端点检测技术 25

2.8.1短时能零积法 26

2.8.2信息熵法 27

2.8.3频带方差法 28

2.8.4 HMM模型法 29

2.8.5倒谱距离测量法 30

2.8.6基于DWT的互相关函数法 31

2.9一种低信噪比下的语音端点检测算法 33

2.9.1降噪方法 33

2.9.2子带能量的计算 34

2.9.3鉴别信息的计算 34

2.9.4算法描述 35

2.9.5实验结果对比及分析 36

2.10本章小结 41

第3章 语音静态特征参数提取 46

3.1问题的提出 46

3.2短时能量 47

3.3短时平均幅度 47

3.4短时过零率 47

3.5短时自相关函数 48

3.6短时平均幅度差函数 48

3.7倒谱特征 49

3.7.1基于线性预测的倒谱参数LPCC 49

3.7.2基于Mel频率的倒谱参数MFCC 50

3.8感知线性预测参数 52

3.9共振峰特征参数 53

3.10谐振强度特征参数 54

3.11基于单边自相关序列的语音特征 56

3.12基于独立分量分析的鲁棒语音特征 57

3.12.1模型描述 58

3.12.2频域独立分量分析 58

3.12.3特征提取算法描述 61

3.13基于线谱频率参数的语音特征提取 69

3.13.1线谱频率参数分析 70

3.13.2求解线谱频率参数的常用算法 70

3.13.3求解线谱频率参数的快速算法 71

3.14基于脉冲耦合神经网络的语音特征 73

3.14.1 PCNN模型结构及其原理 74

3.14.2 PCNN在图像特征提取中的应用 75

3.14.3运用PCNN从语谱图中提取特征参数 77

3.14.4语谱图 77

3.14.5运用PCNN提取特征参数 78

3.15 耳蜗滤波器倒谱系数 78

3.15.1耳蜗滤波器倒谱特征原理框图 78

3.15.2听觉变换 78

3.15.3耳蜗滤波器 81

3.15.4毛细胞窗口 84

3.15.5非线性响度变换和DCT 84

3.16加权组合过零峰值幅度特征参数 84

3.16.1 CZCPA语音特征参数提取原理 85

3.16.2差分原理 88

3.16.3 WCZCPA特征参数提取原理 89

3.17基于二维根倒谱和CCBC的特征参数 90

3.17.1二维根倒谱(TDRC) 90

3.17.2 CCBC算法 91

3.17.3特征参数提取流程 91

3.18基于改进LDA和PCA的语音特征参数 92

3.18.1基于数据驱动线性特征转换的语音特征变换 92

3.18.2改进的算法及其实现 94

3.19基于MUSIC和感知特性的鲁棒特征参数 95

3.19.1感知处理 95

3.19.2 PMUSIC-MFCC特征提取流程 96

3.19.3实验结果对比 98

3.20基于小波包变换的鲁棒特征参数 100

3.20.1小波包分解 100

3.20.2新参数的算法构想 102

3.20.3小波包对频带的划分 103

3.20.4小波函数的选取 105

3.20.5新参数提取流程 108

3.20.6实验结果对比 110

3.21本章小结 112

第4章 语音动态特征参数提取 121

4.1问题的提出 121

4.2基于MUSIC和调制谱滤波的动态特征参数 121

4.2.1 MUSIC谱估计 122

4.2.2调制谱原理 124

4.2.3 MMS-MFCC特征提取流程 126

4.3基于共振峰曲线的语音信号动态特征参数 130

4.3.1动态特征提取流程 130

4.3.2仿真实验 131

4.4组合特征参数优化选择方法 134

4.4.1基本正交实验设计简介 135

4.4.2因子和水平的选择 137

4.4.3正交表的选用及构造 137

4.4.4正交实验结果与分析 138

4.4.5对比实验结果与分析 143

4.5本章小结 144

第5章 基于小波包变换和K-L展开的语音识别方法 148

5.1问题的提出 148

5.2小波包变换 148

5.3特征提取 149

5.4 K-L展开 150

5.5仿真实验结果 151

5.6本章小结 152

第6章 基于小波混沌神经网络的语音识别方法 155

6.1问题的提出 155

6.2动态时间规整 155

6.3小波混沌神经网络模型 155

6.4 WCNN学习算法 156

6.4.1小波神经网络部分学习算法 156

6.4.2混沌神经网络部分学习算法 157

6.5实验结果及结论 159

6.6本章小结 160

第7章 基于遗传算法和Fisher投影的语音识别方法 162

7.1问题的提出 162

7.2遗传算法 162

7.3基于Fisher准则函数的最佳鉴别矢量 163

7.3.1 Fisher准则函数 163

7.3.2最佳鉴别矢量基 164

7.4混沌神经网络模型 164

7.5实验及结果分析 165

7.6本章小结 167

第8章 语音可视化技术研究 170

8.1问题的提出 170

8.2基于语谱图的可视化方法 170

8.3基于LLE和模糊核聚类的可视化方法 171

8.3.1局部线性嵌入(LLE)方法 172

8.3.2改进LLE方法 173

8.3.3核方法 173

8.3.4模糊核聚类算法 175

8.3.5仿真实验结果与分析 176

8.4基于集成特征和神经网络的可视化方法 178

8.4.1音素与音节 179

8.4.2基音与四声 179

8.4.3可视化系统结构模块 180

8.4.4神经网络设计 181

8.4.5图案信息编码 181

8.4.6主颜色编码 184

8.4.7图像位置信息映射 185

8.4.8图像合成 185

8.4.9仿真实验及结果分析 185

8.5基于颜色和图案的汉语声韵母可视化方法 190

8.5.1可视化系统结构 190

8.5.2 BP神经网络设计 191

8.5.3共振峰特征映射主颜色信息 192

8.5.4谐振强度和音长映射图像长和宽信息 192

8.5.5组合特征映射图案信息 193

8.5.6图像合成 193

8.5.7仿真实验及结果分析 193

8.6基于神经网络的汉语声韵母可视化方法 198

8.6.1可视化系统总体结构 198

8.6.2语音信号获取及预处理 199

8.6.3语音特征提取及PCA降维 199

8.6.4神经网络设计 200

8.6.5位置信息映射 200

8.6.6颜色信息获取 201

8.6.7图像合成 201

8.6.8仿真实验及结果分析 201

8.5本章小结 203

第9章 结论与展望 209

9.1本书主要工作及创新点 209

9.2进一步研究的展望 211