《解析深度学习 语音识别实践》PDF下载

  • 购买积分:11 如何计算积分?
  • 作  者:(美)俞栋,(美)邓力著
  • 出 版 社:北京:电子工业出版社
  • 出版年份:2016
  • ISBN:9787121287961
  • 页数:290 页
图书介绍:本书是较早介绍语音识别中深度学习技术细节的专著。全书首先概要介绍了传统语音识别理论和经典的深度神经网络核心算法。接着全面而深入地介绍了深度学习在语音识别中的应用,包括“深度神经网络-隐马尔可夫混合模型”的训练和优化,特征表示学习、模型融合、自适应,以及以循环神经网络为代表的若干先进深度学习技术。

1简介 1

1.1自动语音识别:更好的沟通之桥 1

1.1.1人类之间的交流 2

1.1.2人机交流 2

1.2语音识别系统的基本结构 4

1.3全书结构 6

1.3.1第一部分:传统声学模型 6

1.3.2第二部分:深度神经网络 6

1.3.3第三部分:语音识别中的DNN-HMM混合系统 7

1.3.4第四部分:深度神经网络中的特征表示学习 7

1.3.5第五部分:高级的深度模型 7

第一部分 传统声学模型 9

2混合高斯模型 10

2.1随机变量 10

2.2高斯分布和混合高斯随机变量 11

2.3参数估计 13

2.4采用混合高斯分布对语音特征建模 15

3隐马尔可夫模型及其变体 17

3.1介绍 17

3.2马尔可夫链 19

3.3序列与模型 20

3.3.1隐马尔可夫模型的性质 21

3.3.2隐马尔可夫模型的仿真 22

3.3.3隐马尔可夫模型似然度的计算 22

3.3.4计算似然度的高效算法 24

3.3.5前向与后向递归式的证明 25

3.4期望最大化算法及其在学习HMM参数中的应用 26

3.4.1期望最大化算法介绍 26

3.4.2使用EM算法来学习HMM参数——Baum-Welch算法 28

3.5用于解码HMM状态序列的维特比算法 32

3.5.1动态规划和维特比算法 32

3.5.2用于解码HMM状态的动态规划算法 33

3.6隐马尔可夫模型和生成语音识别模型的变体 35

3.6.1用于语音识别的GMM-HMM模型 36

3.6.2基于轨迹和隐藏动态模型的语音建模和识别 37

3.6.3使用生成模型HMM及其变体解决语音识别问题 38

第二部分 深度神经网络 41

4深度神经网络 42

4.1深度神经网络框架 42

4.2使用误差反向传播来进行参数训练 45

4.2.1训练准则 45

4.2.2训练算法 46

4.3实际应用 50

4.3.1数据预处理 51

4.3.2模型初始化 52

4.3.3权重衰减 52

4.3.4丢弃法 53

4.3.5批量块大小的选择 55

4.3.6取样随机化 56

4.3.7惯性系数 57

4.3.8学习率和停止准则 58

4.3.9网络结构 59

4.3.10可复现性与可重启性 59

5高级模型初始化技术 61

5.1受限玻尔兹曼机 61

5.1.1受限玻尔兹曼机的属性 63

5.1.2受限玻尔兹曼机参数学习 66

5.2深度置信网络预训练 69

5.3降噪自动编码器预训练 71

5.4鉴别性预训练 74

5.5混合预训练 75

5.6采用丢弃法的预训练 75

第三部分 语音识别中的深度神经网络-隐马尔可夫混合模型 77

6深度神经网络-隐马尔可夫模型混合系统 78

6.1DNN-HMM混合系统 78

6.1.1结构 78

6.1.2用CD-DNN-HMM解码 80

6.1.3CD-DNN-HMM训练过程 81

6.1.4上下文窗口的影响 83

6.2CD-DNN-HMM的关键模块及分析 85

6.2.1进行比较和分析的数据集和实验 85

6.2.2对单音素或者三音素的状态进行建模 87

6.2.3越深越好 88

6.2.4利用相邻的语音帧 89

6.2.5预训练 90

6.2.6训练数据的标注质量的影响 90

6.2.7调整转移概率 91

6.3基于KL距离的隐马尔可夫模型 91

7训练和解码的加速 93

7.1训练加速 93

7.1.1使用多GPU流水线反向传播 94

7.1.2异步随机梯度下降 97

7.1.3增广拉格朗日算法及乘子方向交替算法 100

7.1.4减小模型规模 101

7.1.5其他方法 102

7.2加速解码 103

7.2.1并行计算 103

7.2.2稀疏网络 105

7.2.3低秩近似 107

7.2.4用大尺寸DNN训练小尺寸DNN 108

7.2.5多帧DNN 109

8深度神经网络序列鉴别性训练 111

8.1序列鉴别性训练准则 111

8.1.1最大相互信息 112

8.1.2增强型MMI 113

8.1.3最小音素错误/状态级最小贝叶斯风险 114

8.1.4统一的公式 115

8.2具体实现中的考量 116

8.2.1词图产生 116

8.2.2词图补偿 117

8.2.3帧平滑 119

8.2.4学习率调整 119

8.2.5训练准则选择 120

8.2.6其他考量 120

8.3噪声对比估计 121

8.3.1将概率密度估计问题转换为二分类设计问题 121

8.3.2拓展到未归一化的模型 123

8.3.3在深度学习网络训练中应用噪声对比估计算法 124

第四部分 深度神经网络中的特征表示学习 127

9深度神经网络中的特征表示学习 128

9.1特征和分类器的联合学习 128

9.2特征层级 129

9.3使用随意输入特征的灵活性 133

9.4特征的鲁棒性 134

9.4.1对说话人变化的鲁棒性 134

9.4.2对环境变化的鲁棒性 135

9.5对环境的鲁棒性 137

9.5.1对噪声的鲁棒性 138

9.5.2对语速变化的鲁棒性 140

9.6缺乏严重信号失真情况下的推广能力 141

10深度神经网络和混合高斯模型的融合 144

10.1在GMM-HMM系统中使用由DNN衍生的特征 144

10.1.1使用Tandem和瓶颈特征的GMM-HMM模型 144

10.1.2DNN-HMM混合系统与采用深度特征的GMM-HMM系统的比较 147

10.2识别结果融合技术 149

10.2.1识别错误票选降低技术(ROVER) 149

10.2.2分段条件随机场(SCARF) 151

10.2.3最小贝叶斯风险词图融合 153

10.3帧级别的声学分数融合 153

10.4多流语音识别 154

11深度神经网络的自适应技术 157

11.1深度神经网络中的自适应问题 157

11.2线性变换 159

11.2.1线性输入网络 159

11.2.2线性输出网络 159

11.3线性隐层网络 161

11.4保守训练 162

11.4.1L2正则项 163

11.4.2KL距离正则项 163

11.4.3减少每个说话人的模型开销 165

11.5子空间方法 167

11.5.1通过主成分分析构建子空间 167

11.5.2噪声感知、说话人感知及设备感知训练 168

11.5.3张量 172

11.6DNN说话人自适应的效果 172

11.6.1基于KL距离的正则化方法 173

11.6.2说话人感知训练 174

第五部分 先进的深度学习模型 177

12深度神经网络中的表征共享和迁移 178

12.1多任务和迁移学习 178

12.1.1多任务学习 178

12.1.2迁移学习 180

12.2多语言和跨语言语音识别 180

12.2.1基于Tandem或瓶颈特征的跨语言语音识别 181

12.2.2共享隐层的多语言深度神经网络 182

12.2.3跨语言模型迁移 185

12.3语音识别中深度神经网络的多目标学习 188

12.3.1使用多任务学习的鲁棒语音识别 188

12.3.2使用多任务学习改善音素识别 189

12.3.3同时识别音素和字素(graphemes) 190

12.4使用视听信息的鲁棒语音识别 190

13循环神经网络及相关模型 192

13.1介绍 192

13.2基本循环神经网络中的状态-空间公式 194

13.3沿时反向传播学习算法 195

13.3.1最小化目标函数 196

13.3.2误差项的递归计算 196

13.3.3循环神经网络权重的更新 197

13.4一种用于学习循环神经网络的原始对偶技术 199

13.4.1循环神经网络学习的难点 199

13.4.2回声状态(Echo-State)性质及其充分条件 199

13.4.3将循环神经网络的学习转化为带约束的优化问题 200

13.4.4一种用于学习RNN的原始对偶方法 201

13.5结合长短时记忆单元(LSTM)的循环神经网络 203

13.5.1动机与应用 203

13.5.2长短时记忆单元的神经元架构 204

13.5.3LSTM-RNN的训练 205

13.6循环神经网络的对比分析 205

13.6.1信息流方向的对比:自上而下还是自下而上 206

13.6.2信息表征的对比:集中式还是分布式 208

13.6.3解释能力的对比:隐含层推断还是端到端学习 209

13.6.4参数化方式的对比:吝啬参数集合还是大规模参数矩阵 209

13.6.5模型学习方法的对比:变分推理还是梯度下降 210

13.6.6识别正确率的比较 211

13.7讨论 212

14计算型网络 214

14.1计算型网络 214

14.2前向计算 215

14.3模型训练 218

14.4典型的计算节点 222

14.4.1无操作数的计算节点 223

14.4.2含一个操作数的计算节点 223

14.4.3含两个操作数的计算节点 228

14.4.4用来计算统计量的计算节点类型 235

14.5卷积神经网络 236

14.6循环连接 239

14.6.1只在循环中一个接一个地处理样本 240

14.6.2同时处理多个句子 242

14.6.3创建任意的循环神经网络 243

15总结及未来研究方向 245

15.1路线图 245

15.1.1语音识别中的深度神经网络启蒙 245

15.1.2深度神经网络训练和解码加速 248

15.1.3序列鉴别性训练 248

15.1.4特征处理 249

15.1.5自适应 250

15.1.6多任务和迁移学习 251

15.1.7卷积神经网络 251

15.1.8循环神经网络和长短时记忆神经网络 251

15.1.9其他深度模型 252

15.2技术前沿和未来方向 252

15.2.1技术前沿简析 252

15.2.2未来方向 253

参考文献 255