第1章 绪论 1
1.1声学事件检测技术的发展 1
1.1.1声学事件检测的起源与发展脉络 2
1.1.2基于特征的声学事件检测 12
1.1.3基于模型的声学事件检测 17
1.2声学事件检测技术的应用 20
1.3声学事件检测系统的结构 21
1.4本书的结构 22
第2章 声学事件检测中的常用特征和模型 30
2.1声学事件检测中的常用特征 30
2.1.1声音信号的数字化 30
2.1.2声音信号的时域特征 31
2.1.3声音信号的频域特征 33
2.1.4声音信号的时频域特征 41
2.1.5特征降维与选择 43
2.2声学事件检测中的常用模型 47
2.2.1浅层模型 47
2.2.2深度模型 53
2.3本章小结 53
第3章 基于基频段特征的声学事件检测 54
3.1引言 54
3.2长时特征提取 54
3.2.1长时统计特征提取 54
3.2.2基于基频段的特征提取 59
3.3基于长时统计特征的声学事件检测 59
3.3.1基于单分类器和多分类器融合的声学事件检测 60
3.3.2基于类内细分聚类的声学事件检测 61
3.3.3基于拒识和确认的声学事件检测 62
3.4实验和结果 63
3.4.1实验设置 63
3.4.2实验结果与分析 63
3.5本章小结 68
第4章 基于混合模型的声学事件检测 69
4.1引言 69
4.2伪高斯混合模型 70
4.2.1伪高斯混合模型的构建 70
4.2.2伪高斯混合模型参数估计的EM算法 72
4.3异质混合模型 74
4.3.1多变量Logistic混合模型的可辨识性 75
4.3.2异质混合模型的构建 78
4.3.3异质混合模型的参数估计 79
4.4实验和结果 82
4.4.1基于伪高斯混合模型的声学事件检测 82
4.4.2基于异质混合模型的声学事件检测 83
4.5本章小结 86
第5章 基于稀疏低秩特征的声学事件检测 87
5.1引言 87
5.2基于稀疏表示特征的声学事件检测 89
5.3基于低秩矩阵表示特征的声学事件检测 92
5.3.1低秩矩阵表示特征提取 92
5.3.2低秩矩阵分类的问题描述 93
5.3.3基于加速近似梯度方法的矩阵分类学习 94
5.4基于低秩张量表示特征的声学事件检测 96
5.4.1张量计算相关记号 97
5.4.2低秩张量表示特征提取 97
5.4.3基于加速近似梯度方法的张量分类学习 99
5.5实验和结果 102
5.5.1基于稀疏表示特征的声学事件检测 102
5.5.2基于低秩矩阵表示特征的声学事件检测 104
5.5.3基于低秩张量表示特征的声学事件检测 108
5.6本章小结 112
第6章 基于松弛边际下模型训练的声学事件检测 113
6.1引言 113
6.2基于迹范限制下的最大边际矩阵分类 113
6.2.1基于迹范限制与松弛边际的矩阵分类问题描述 113
6.2.2基于交替搜索方式的矩阵分类学习算法 114
6.3基于迹范限制下的最大边际张量分类 116
6.3.1基于迹范限制与松弛边际的张量分类问题描述 116
6.3.2基于交替搜索方式的张量分类学习算法 117
6.4实验和结果 119
6.5本章小结 122
第7章 基于在线并行模型训练的声学事件检测 123
7.1引言 123
7.2在线并行的矩阵数据分类学习方法 123
7.2.1基于加速近似梯度方法的矩阵分类在线学习 123
7.2.2基于逼近加速近似梯度方法的在线学习 125
7.2.3基于小批量更新的在线学习 126
7.2.4基于并行计算加速的矩阵分类学习 126
7.3在线并行的张量数据分类学习方法 128
7.4实验和结果 131
7.4.1基于在线并行学习的低秩矩阵特征分类 131
7.4.2基于在线并行学习的低秩张量特征分类 133
7.5本章小结 135
第8章 基于锚空间的声学事件检测 136
8.1引言 136
8.2锚模型简介 137
8.3基于状态变化统计量的锚空间声学事件检测 139
8.3.1基于状态变化统计量的锚空间生成方法 140
8.3.2实验与讨论 143
8.4基于高斯混合模型锚空间的声学事件检测 144
8.4.1基于高斯混合模型锚空间的目标与集外锚模板的生成 144
8.4.2基于高斯混合模型的声学事件检测机制 146
8.5基于稀疏分解锚空间的声学事件检测 146
8.5.1基于稀疏分解锚空间的目标与集外锚模板的生成 147
8.5.2基于稀疏分解的声学事件检测机制 148
8.5.3实验与讨论 149
8.6本章小结 151
第9章 面向大数据环境下声学事件检测的凸优化理论 152
9.1引言 152
9.2与声学事件检测相关的凸优化理论 153
9.2.1早期凸优化 154
9.2.2凸优化基础 155
9.2.3一阶方法的动机 156
9.3光滑与非光滑的凸优化一阶方法 157
9.3.1光滑目标 157
9.3.2复合优化目标函数 160
9.3.3近端目标 161
9.4随机化技术 162
9.5并行和分布式计算 164
9.6本章小结 164
第10章 面向大数据处理的支持向量机模型的加速算法 165
10.1随机对偶坐标上升法 165
10.1.1问题描述及相关工作 165
10.1.2基于对偶间隙边界的SDCA收敛性分析 167
10.2加速近端随机对偶坐标上升法 172
10.2.1问题描述及相关工作 172
10.2.2基于对偶间隙边界的Prox-SDCA收敛性分析 173
10.3本章小结 180
第11章 面向大数据处理的深度模型的加速算法 181
11.1引言 181
11.2全梯度与随机梯度下降算法 183
11.3加速梯度算法 190
11.4指数型收敛的随机梯度下降算法 192
11.4.1随机平均梯度法 192
11.4.2随机方差减梯度方法 194
11.5坐标梯度下降算法 194
11.6本章小结 199
第12章 面向大数据的通用型在线及随机梯度下降算法 200
12.1引言 200
12.2通用在线梯度法 202
12.2.1通用的在线原始梯度方法 203
12.2.2通用的在线对偶梯度方法 205
12.2.3通用的在线快速梯度方法 208
12.3通用随机梯度法 212
12.3.1算法描述 212
12.3.2收敛性分析 212
12.4数值实验 215
12.4.1LASSO问题 216
12.4.2施泰纳问题 218
12.5本章小结 221
第13章 面向大数据的牛顿型随机梯度下降算法 223
13.1引言 223
13.2近端牛顿型随机梯度法 226
13.2.1正则化的二次模型 228
13.2.2Hessian矩阵的近似 229
13.3算法的收敛性分析 229
13.4数值实验 234
13.5本章小结 235
第14章 基于声学事件检测的行车周边声音环境感知 236
14.1引言 236
14.2实验环境与基线系统 237
14.3基于径向基函数神经网络噪声建模的声学事件检测 240
14.4基于等响度曲线的声学事件检测 246
14.5基于基频轨迹特征的声学事件检测 250
14.6本章小结 255
第15章 音频场景识别 256
15.1引言 256
15.2基于高斯直方图特征的音频场景识别 257
15.2.1高斯直方图特征 257
15.2.2分类模型 259
15.3基于迁移学习的音频场景识别 259
15.3.1迁移学习概述 259
15.3.2基于样本平衡化的音频场景识别 260
15.3.3基于改进样本平衡化的音频场景识别 263
15.4实验和结果 265
15.5本章小结 266
参考文献 267