第一篇 绪论 3
第1章 背景与概述 3
1.1研究背景及意义 3
1.1.1说话人识别介绍 3
1.1.2说话人识别的优势与应用前景 5
1.2研究进展与趋势 6
1.2.1研究历史 6
1.2.2研究现状 8
1.2.3发展趋势 9
1.2.4存在的问题 12
1.3本书结构 13
参考文献 14
第2章 技术基础与理论 16
2.1背景知识 16
2.2说话人识别系统结构 17
2.3特征提取 18
2.3.1预处理 19
2.3.2美尔倒谱特征 22
2.3.3线性预测系数 23
2.3.4 Delta特征和Delta_Delta特征的计算 24
2.3.5声门特征 24
2.4说话人识别模型 26
2.4.1高斯混合模型 27
2.4.2隐马尔可夫模型 31
2.4.3动态时间规整模型 36
2.4.4向量量化模型 36
2.5得分规整 37
2.6系统性能评价 38
2.6.1评价指标 38
2.6.2性能与用户规模的关系 39
2.6.3实际使用要求 40
2.7小结 42
参考文献 42
第3章 说话人识别语料库 44
3.1常用语料库 44
3.2面向移动互联环境的说话人识别语料库(SRMC) 48
3.2.1 SRMC的设计思路 49
3.2.2 SRMC录音方案 49
3.2.3 SRMC录音内容 52
3.2.4 SRMC存储与标注 54
3.3电话语音库(PHONE) 55
3.4多模态说话人识别库 55
3.5 NOISEX-92数据库 58
3.6小结 58
参考文献 59
第二篇 特征提取 63
第4章 说话人特征分析与优化 63
4.1特征性能分析 63
4.1.1阶数的影响 63
4.1.2帧长的影响 67
4.1.3结论 72
4.2特征参数优化 72
4.2.1语音包络检测 72
4.2.2包络最小长度限制 73
4.2.3预加重参数选取 74
4.2.4语音起始点的去除 74
4.2.5 Delta特征的引入 75
4.2.6训练音长度的影响 75
4.2.7结论 76
4.3特征组合 76
4.3.1单一特征组合 77
4.3.2不同特征组合(小规模用户) 81
4.3.3不同特征组合(中等规模用户) 84
4.4二次特征提取 87
4.5小结 90
参考文献 91
第5章 基于主成分分析(PCA)的说话人特征变换 92
5.1高维说话人特征的缺陷 92
5.2说话人特征与PCA变换 93
5.2.1说话人特征 93
5.2.2 PCA变换的流程与效果 94
5.2.3说话人特征的PCA变换 95
5.3 PCA特征变换应用于说话人鉴别 96
5.3.1传统的说话人鉴别系统 96
5.3.2基于PCA特征变换的可行性 97
5.4局部PCA特征变换 97
5.4.1基于局部PCA特征变换的说话人鉴别系统 97
5.4.2实验结果分析 98
5.4.3结论 105
5.5全局PCA特征变换 106
5.5.1基于全局PCA特征变换的说话人鉴别系统 106
5.5.2实验结果分析 107
5.5.3结论 112
5.6基准系统、局部PCA变换与全局PCA变换的比较 112
5.6.1可扩充性比较 112
5.6.2识别性能比较 113
5.7小结 117
参考文献 118
第6章 基于线性判别分析(LDA)的说话人特征变换 119
6.1 LDA变换与PCA变换的联系与区别 119
6.1.1 LDA转换公式与PCA转换公式 119
6.1.2 LDA变换和PCA变换的原理的比较 120
6.1.3用LDA对说话人特征进行变换 120
6.2 LDA特征变换 121
6.2.1基于LDA特征变换的说话人鉴别系统 121
6.2.2实验结果分析 122
6.2.3结论 128
6.3基准系统、全局PCA变换与LDA变换的比较 128
6.3.1可扩充性比较 128
6.3.2识别性能比较 129
6.4小结 133
参考文献 134
第7章 基于轨线模型的说话人特征时序性发掘 135
7.1基于段模型的说话人特征时序性发掘 135
7.1.1段模型 135
7.1.2段模型在语音识别中的应用 137
7.1.3说话人特征时序性发掘方法 138
7.1.4时序性发掘实验 141
7.2基于Trended H M M的文本相关说话人识别 145
7.2.1 Trended HMM 145
7.2.2 Trended HMM在语音识别中的应用 149
7.2.3文本相关的说话人识别 150
7.2.4 Trended HMM与VIV 153
7.2.5 Trended HMM优缺点 154
7.3小结 155
参考文献 155
第三篇 识别模型 159
第8章 基于支持向量机的识别模型 159
8.1研究意义 159
8.2支持向量的区域描述 160
8.2.1闭集与开集 160
8.2.2支持向量的区域描述 164
8.2.3说话人辨认 166
8.3支持向量机的概率输出 167
8.3.1概率 167
8.3.2支持向量机的概率输出 170
8.3.3内嵌支持向量机(SVM)的隐马尔可夫模型(HMM) 174
8.3.4支持向量机(SVM)与高斯混合模型(GMM)的混合模型 176
8.4基于向量量化(VQ)模型的核方法 178
8.5基于GMM模型的核方法 180
8.6多SVM混合模型 182
8.7小结 184
参考文献 184
第9章 基于动态贝叶斯网络的识别模型 186
9.1动态贝叶斯网络 186
9.1.1表达 186
9.1.2推导 188
9.1.3学习 195
9.1.4结论 198
9.2基于动态贝叶斯网络(DBN)的说话人识别 198
9.2.1基于动态贝叶斯网络的识别框架 199
9.2.2实验和讨论 204
9.3小结 208
参考文献 208
第10章 基于主成分分析分类器的说话人识别 210
10.1说话人分类常用算法的局限性 210
10.2主成分分析分类原理 211
10.2.1主成分分析的递归定义 211
10.2.2主成分分析的分类依据 212
10.3两种主成分分析分类器及其决策融合 213
10.3.1基于主成分子空间的分类器 213
10.3.2基于截断误差子空间的分类器 214
10.3.3两种主成分分析分类器的决策融合 215
10.4主成分分析分类器应用于说话人鉴别 216
10.4.1模型训练 216
10.4.2模型测试 217
10.5实验结果分析 217
10.5.1无噪语料库 217
10.5.2有噪语料库 219
10.5.3与高斯混合模型(GMM)方法和向量量化(VQ)方法的比较 221
10.5.4结论 223
10.6复杂度分析 223
10.6.1 P&T分类器的计算复杂度 224
10.6.2高斯混合模型的计算复杂度 225
10.6.3两者计算复杂度的比较 226
10.7小结 226
参考文献 227
第四篇 信息融合 231
第11章 声门信息融合 231
11.1基于声门特征的说话人识别研究现状 231
11.1.1声门特征应用于说话人识别 231
11.1.2基音周期的提取 235
11.2基于声门特征的倒谱补偿算法 238
11.2.1声门特征对于倒谱特征的影响 238
11.2.2基于声门特征的倒谱补偿模型 242
11.2.3多通道环境下的倒谱补偿 248
11.3基于声门特征的并行高斯混合模型 255
11.3.1并行高斯混合模型的理论框架 255
11.3.2并行高斯混合模型的子空间划分 256
11.3.3子空间模型的融合 257
11.3.4实验结果及分析 258
11.4基于声门特征的倒谱平均减 261
11.4.1倒谱平均减技术 262
11.4.2基于声门特征的倒谱平均减算法 263
11.4.3实验结果及分析 265
11.5小结 268
参考文献 269
第12章 人脸信息融合 271
12.1多模态说话人识别研究 271
12.1.1融合框架 272
12.1.2声纹识别模型 272
12.1.3人脸识别模型 273
12.1.4融合方法 275
12.1.5融合效果分析 279
12.2基于得分差加权和融合的双模态说话人识别 281
12.2.1表达 282
12.2.2实验 282
12.3动态贝叶斯网络在多模态说话人鉴别上的应用 283
12.3.1说话人鉴别融合框架 283
12.3.2基于动态贝叶斯网络的特征级融合 284
12.3.3说话人识别的实验和讨论 286
12.4小结 288
参考文献 288
第五篇 应用展望 295
第13章 支持说话人识别研究与开发的开放式平台SONAR 295
13.1 SONAR平台架构 296
13.1.1简介 296
13.1.2 SONAR测试平台界面 297
13.1.3 SONAR核心模块 298
13.2特征模块 299
13.2.1预处理算法 299
13.2.2特征提取 300
13.3模型模块 300
13.3.1模型集合 300
13.3.2模型融合判决 301
13.4 SONAR平台可扩展性 301
13.4.1 SONAR平台特点 301
13.4.2可扩展性 302
13.5小结 303
参考文献 303
第14章 应用系统 304
14.1声纹打卡系统 304
14.1.1开发背景 304
14.1.2系统体系结构 305
14.1.3说话人识别 308
14.1.4性能评估 309
14.2移动互联环境下的说话人识别系统 311
14.2.1应用背景 311
14.2.2系统结构 312
14.2.3使用说明 312
14.3小结 316
参考文献 316
第15章 总结与展望 318
15.1全书总结 318
15.2工作展望 323
15.2.1基于声门信息的说话人识别 323
15.2.2引入高层信息的说话人识别 323
15.2.3基于情感补偿的活体声纹识别 325
15.3结语 328
参考文献 328