《说话人识别模型与方法》PDF下载

  • 购买积分:12 如何计算积分?
  • 作  者:吴朝晖,杨莹春著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2009
  • ISBN:9787302189688
  • 页数:329 页
图书介绍:说话人识别是根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。本书结合作者多年的科研工作,从5个方面介绍了说话人识别的基本概念、方法以及最新研究进展。

第一篇 绪论 3

第1章 背景与概述 3

1.1研究背景及意义 3

1.1.1说话人识别介绍 3

1.1.2说话人识别的优势与应用前景 5

1.2研究进展与趋势 6

1.2.1研究历史 6

1.2.2研究现状 8

1.2.3发展趋势 9

1.2.4存在的问题 12

1.3本书结构 13

参考文献 14

第2章 技术基础与理论 16

2.1背景知识 16

2.2说话人识别系统结构 17

2.3特征提取 18

2.3.1预处理 19

2.3.2美尔倒谱特征 22

2.3.3线性预测系数 23

2.3.4 Delta特征和Delta_Delta特征的计算 24

2.3.5声门特征 24

2.4说话人识别模型 26

2.4.1高斯混合模型 27

2.4.2隐马尔可夫模型 31

2.4.3动态时间规整模型 36

2.4.4向量量化模型 36

2.5得分规整 37

2.6系统性能评价 38

2.6.1评价指标 38

2.6.2性能与用户规模的关系 39

2.6.3实际使用要求 40

2.7小结 42

参考文献 42

第3章 说话人识别语料库 44

3.1常用语料库 44

3.2面向移动互联环境的说话人识别语料库(SRMC) 48

3.2.1 SRMC的设计思路 49

3.2.2 SRMC录音方案 49

3.2.3 SRMC录音内容 52

3.2.4 SRMC存储与标注 54

3.3电话语音库(PHONE) 55

3.4多模态说话人识别库 55

3.5 NOISEX-92数据库 58

3.6小结 58

参考文献 59

第二篇 特征提取 63

第4章 说话人特征分析与优化 63

4.1特征性能分析 63

4.1.1阶数的影响 63

4.1.2帧长的影响 67

4.1.3结论 72

4.2特征参数优化 72

4.2.1语音包络检测 72

4.2.2包络最小长度限制 73

4.2.3预加重参数选取 74

4.2.4语音起始点的去除 74

4.2.5 Delta特征的引入 75

4.2.6训练音长度的影响 75

4.2.7结论 76

4.3特征组合 76

4.3.1单一特征组合 77

4.3.2不同特征组合(小规模用户) 81

4.3.3不同特征组合(中等规模用户) 84

4.4二次特征提取 87

4.5小结 90

参考文献 91

第5章 基于主成分分析(PCA)的说话人特征变换 92

5.1高维说话人特征的缺陷 92

5.2说话人特征与PCA变换 93

5.2.1说话人特征 93

5.2.2 PCA变换的流程与效果 94

5.2.3说话人特征的PCA变换 95

5.3 PCA特征变换应用于说话人鉴别 96

5.3.1传统的说话人鉴别系统 96

5.3.2基于PCA特征变换的可行性 97

5.4局部PCA特征变换 97

5.4.1基于局部PCA特征变换的说话人鉴别系统 97

5.4.2实验结果分析 98

5.4.3结论 105

5.5全局PCA特征变换 106

5.5.1基于全局PCA特征变换的说话人鉴别系统 106

5.5.2实验结果分析 107

5.5.3结论 112

5.6基准系统、局部PCA变换与全局PCA变换的比较 112

5.6.1可扩充性比较 112

5.6.2识别性能比较 113

5.7小结 117

参考文献 118

第6章 基于线性判别分析(LDA)的说话人特征变换 119

6.1 LDA变换与PCA变换的联系与区别 119

6.1.1 LDA转换公式与PCA转换公式 119

6.1.2 LDA变换和PCA变换的原理的比较 120

6.1.3用LDA对说话人特征进行变换 120

6.2 LDA特征变换 121

6.2.1基于LDA特征变换的说话人鉴别系统 121

6.2.2实验结果分析 122

6.2.3结论 128

6.3基准系统、全局PCA变换与LDA变换的比较 128

6.3.1可扩充性比较 128

6.3.2识别性能比较 129

6.4小结 133

参考文献 134

第7章 基于轨线模型的说话人特征时序性发掘 135

7.1基于段模型的说话人特征时序性发掘 135

7.1.1段模型 135

7.1.2段模型在语音识别中的应用 137

7.1.3说话人特征时序性发掘方法 138

7.1.4时序性发掘实验 141

7.2基于Trended H M M的文本相关说话人识别 145

7.2.1 Trended HMM 145

7.2.2 Trended HMM在语音识别中的应用 149

7.2.3文本相关的说话人识别 150

7.2.4 Trended HMM与VIV 153

7.2.5 Trended HMM优缺点 154

7.3小结 155

参考文献 155

第三篇 识别模型 159

第8章 基于支持向量机的识别模型 159

8.1研究意义 159

8.2支持向量的区域描述 160

8.2.1闭集与开集 160

8.2.2支持向量的区域描述 164

8.2.3说话人辨认 166

8.3支持向量机的概率输出 167

8.3.1概率 167

8.3.2支持向量机的概率输出 170

8.3.3内嵌支持向量机(SVM)的隐马尔可夫模型(HMM) 174

8.3.4支持向量机(SVM)与高斯混合模型(GMM)的混合模型 176

8.4基于向量量化(VQ)模型的核方法 178

8.5基于GMM模型的核方法 180

8.6多SVM混合模型 182

8.7小结 184

参考文献 184

第9章 基于动态贝叶斯网络的识别模型 186

9.1动态贝叶斯网络 186

9.1.1表达 186

9.1.2推导 188

9.1.3学习 195

9.1.4结论 198

9.2基于动态贝叶斯网络(DBN)的说话人识别 198

9.2.1基于动态贝叶斯网络的识别框架 199

9.2.2实验和讨论 204

9.3小结 208

参考文献 208

第10章 基于主成分分析分类器的说话人识别 210

10.1说话人分类常用算法的局限性 210

10.2主成分分析分类原理 211

10.2.1主成分分析的递归定义 211

10.2.2主成分分析的分类依据 212

10.3两种主成分分析分类器及其决策融合 213

10.3.1基于主成分子空间的分类器 213

10.3.2基于截断误差子空间的分类器 214

10.3.3两种主成分分析分类器的决策融合 215

10.4主成分分析分类器应用于说话人鉴别 216

10.4.1模型训练 216

10.4.2模型测试 217

10.5实验结果分析 217

10.5.1无噪语料库 217

10.5.2有噪语料库 219

10.5.3与高斯混合模型(GMM)方法和向量量化(VQ)方法的比较 221

10.5.4结论 223

10.6复杂度分析 223

10.6.1 P&T分类器的计算复杂度 224

10.6.2高斯混合模型的计算复杂度 225

10.6.3两者计算复杂度的比较 226

10.7小结 226

参考文献 227

第四篇 信息融合 231

第11章 声门信息融合 231

11.1基于声门特征的说话人识别研究现状 231

11.1.1声门特征应用于说话人识别 231

11.1.2基音周期的提取 235

11.2基于声门特征的倒谱补偿算法 238

11.2.1声门特征对于倒谱特征的影响 238

11.2.2基于声门特征的倒谱补偿模型 242

11.2.3多通道环境下的倒谱补偿 248

11.3基于声门特征的并行高斯混合模型 255

11.3.1并行高斯混合模型的理论框架 255

11.3.2并行高斯混合模型的子空间划分 256

11.3.3子空间模型的融合 257

11.3.4实验结果及分析 258

11.4基于声门特征的倒谱平均减 261

11.4.1倒谱平均减技术 262

11.4.2基于声门特征的倒谱平均减算法 263

11.4.3实验结果及分析 265

11.5小结 268

参考文献 269

第12章 人脸信息融合 271

12.1多模态说话人识别研究 271

12.1.1融合框架 272

12.1.2声纹识别模型 272

12.1.3人脸识别模型 273

12.1.4融合方法 275

12.1.5融合效果分析 279

12.2基于得分差加权和融合的双模态说话人识别 281

12.2.1表达 282

12.2.2实验 282

12.3动态贝叶斯网络在多模态说话人鉴别上的应用 283

12.3.1说话人鉴别融合框架 283

12.3.2基于动态贝叶斯网络的特征级融合 284

12.3.3说话人识别的实验和讨论 286

12.4小结 288

参考文献 288

第五篇 应用展望 295

第13章 支持说话人识别研究与开发的开放式平台SONAR 295

13.1 SONAR平台架构 296

13.1.1简介 296

13.1.2 SONAR测试平台界面 297

13.1.3 SONAR核心模块 298

13.2特征模块 299

13.2.1预处理算法 299

13.2.2特征提取 300

13.3模型模块 300

13.3.1模型集合 300

13.3.2模型融合判决 301

13.4 SONAR平台可扩展性 301

13.4.1 SONAR平台特点 301

13.4.2可扩展性 302

13.5小结 303

参考文献 303

第14章 应用系统 304

14.1声纹打卡系统 304

14.1.1开发背景 304

14.1.2系统体系结构 305

14.1.3说话人识别 308

14.1.4性能评估 309

14.2移动互联环境下的说话人识别系统 311

14.2.1应用背景 311

14.2.2系统结构 312

14.2.3使用说明 312

14.3小结 316

参考文献 316

第15章 总结与展望 318

15.1全书总结 318

15.2工作展望 323

15.2.1基于声门信息的说话人识别 323

15.2.2引入高层信息的说话人识别 323

15.2.3基于情感补偿的活体声纹识别 325

15.3结语 328

参考文献 328