说话人识别的现代方法与技术PDF电子书下载
- 电子书积分:8 积分如何计算积分?
- 作 者:张军英著
- 出 版 社:西安:西北大学出版社
- 出版年份:1994
- ISBN:7560408249
- 页数:137 页
前言 1
第一章 说话人识别导引 1
1.1 说话人识别的基本概念、分类与应用 1
1.1.1 说话人识别的分类 1
1.1.2 说话人识别的应用领域 1
目录 1
1.1.3 说话人识别的难点 3
1.1.4 本书的特点和内容安排 3
1.2.1 语音的发音模型与特征的提取 4
1.2 说话人识别原理与说话人识别系统的结构 4
1.2.2 说话人识别原理 5
1.2.3 说话人识别系统的结构 7
1.3 说话人识别系统的性能评价 8
1.3.1 评价指标 8
1.3.2 错误识别概率和说话人数目的关系 9
第二章 特征提取与评价 13
2.1 特征提取的基本过程 13
2.2.1 线性预测问题 14
2.2.2 LP的结构 14
2.2 LPC分析与特征提取 14
2.2.3 LP的标准方程 15
2.2.4 LPC特征的距离度量 16
2.2.5 语音信号的短时频谱及利用LPC的求法 16
2.3 部分相关系数 17
2.3.1 部分相关的概念 17
2.3.2 PARCOR系数与声道截面积的关系 18
2.3.3 计算部分相关系数的格型算法 18
2.3.4 PARCOR系数与线性预测系数的关系 20
2.4.1 倒谱特征的含义 21
2.4 倒谱特征 21
2.4.2 音源激励部分与声道部分的分离 22
2.4.3 LPC倒谱特征 23
2.4.4 Mel倒谱和二维Mel倒谱 24
2.4.5 过渡倒谱特征 25
2.4.6 倒谱失真测度 25
2.5 LSP特征 26
2.5.1 LSP特征的含义 26
2.5.2 LSP特征的求法 28
2.5.3 LSP类特征 28
2.6.1 F比 29
2.6 特征的选择与评价 29
2.6.2 可分性测度 30
第三章 基于模板的说话人识别 31
3.1 识别系统的结构 31
3.2 动态时间弯折技术 31
3.2.1 时间弯折的要求 31
3.2.2 时间弯折的限制 32
3.2.3 时间弯折的DP方法 33
3.2.4 实时识别的VQ方法 34
3.3.2 斜率限制的扩展 35
3.3.3 对称和非对称加权系数 35
3.3.1 端点限制的取消 35
3.3 DTW方法的扩充和变形 35
3.3.4 交叉排列的DP匹配 36
3.3.5 线性匹配 37
3.3.6 分段线性匹配 38
3.4 特征序列间失真测度的关联修正 38
3.5 与噪声特征距离最大的动态时间弯折技术 39
3.5.1 特征序列的帧数规整 39
3.5.2 模板建立 40
3.5.4 基于正交投影原理的时间规整方案 41
3.5.3 匹配距离计算与说话人识别 41
3.6.1 动态频率弯折 42
3.6 频率弯折技术 42
3.6.2 去除噪声的频率弯折 43
3.7 动态时间弯折的神经预测(NP)方法 45
3.7.1 神经预测单元 45
3.7.2 神经预测网络的训练与说话人的识别 45
第四章 基于VQ的说话人识别 48
4.1 矢量量化的基本原理 48
4.2.2 初始码书的选定 49
4.2 VQ码书设计方法 49
4.2.1 LBG算法 49
4.3 单VQ说话人识别 50
4.4 双VQ说话人测 52
4.5 长时平均方法 54
4.6 基于VQ-DTW的说话人识别 54
4.7 重叠失真测度与基于VQ的说话人识别 56
4.7.1 重叠失真测度 56
4.7.2 识别实验与结果 57
4.8.1 平均失真的表示 58
4.8 等方差加权倒谱失真测度与基于VQ的说话人识别 58
4.8.2 最佳加权系数的计算 59
4.8.3 识别实验与结果 60
4.9 说话人个性特征矢量量化的人工神经网络方法 60
4.9.1 Kohonen网用于特征矢量的矢量量化 60
4.9.2 学习型矢量量化(LVQ)方法 61
4.9.3 LVQ用于说话人识别 63
第五章 基于GMM的说话人识别 64
5.1 高斯混合模型(GMM) 64
5.2.1 参数的最大似然估计 65
5.2 GMM的训练和学习 65
5.2.2 辅助函数 66
5.2.3 EM算法 67
5.3 基于GMM的说话人识别 68
5.3.1 GMM与单高斯分布模型的比较 68
5.3.2 GMM初始参数设置 69
5.3.3 GMM的阶数M 70
5.3.4 VQ与GMM的比较 71
5.3.5 GMM模型中的说话人补偿 71
5.4.1 集成GMM 72
5.4 噪声环境下的集成GMM说话人识别 72
5.4.2 SGMM模型参数的最大似然估计 73
5.4.3 几种典型的噪声模型 74
5.4.4 噪声屏蔽 76
5.4.5 识别实验与结果 78
第六章 基于HMM的说话人识别 80
6.1 隐马尔可夫模型(HMM) 80
6.1.1 HMM的基本概念 80
6.1.2 概率密度函数的几种典型形式 82
6.2.1 HMM参数的优化 84
6.2 参数优化与Viterbi识别算法 84
6.2.2 前向概率和后向概率 85
6.2.3 Viterbi算法 86
6.3 自左至右HMM与说话人识别 87
6.3.1 自左至右HMM 87
6.3.2 模型训练 88
6.3.3 初始分段方法 90
6.3.4 子状态数M与说话人证实性能 91
6.3.5 基于HMM与基于模板的说话人证实性能比较 92
6.4.3 说话人证实 93
6.4.2 说话人模型的建立 93
6.4.1 遍历HMM与类因素划分 93
6.4 遍历HMM与说话人识别 93
6.4.4 识别实验与结果 94
6.5 离散HMM与连续HMM的说话人识别性能比较 95
6.5.1 HMM的退化形式 96
6.5.2 性能与状态转移的关系 97
6.5.3 对训练数据的鲁棒性 97
6.6 动态HMM(DHMM)与说话人识别 99
6.6.1 动态HMM及其训练 99
6.6.2 自左至右DHMM用于说话人辩认 101
第七章 基于人工神经网络的说话人识别 103
7.1 多层感知器网络 103
7.1.1 感知器 103
7.1.2 多层感知器网络的分类能力 105
7.1.3 多层感知器网络及其训练的BP算法 107
7.2 基于多层感知器网络说话人识别的基本问题 108
7.2.1 说话人识别系统的结构 109
7.2.2 训练数据的均衡问题 111
7.2.3 网络训练与网络性能的关系 112
7.3.1 特征的矢量量化 113
7.3 VQ与BP网结合的说话人识别 113
7.3.2 第一级码号变换 114
7.3.3 第二级码号变换 115
7.3.4 识别系统结构 115
7.4 基于径向基函数网络的说话人识别 116
7.4.1 径向基函数网络 116
7.4.2 中心与宽度选择及说话人证实模型建立 117
7.4.3 与VQ方法的比较 117
7.5与 HMM结合的基于神经预测网络的说话人识别 118
7.5.1 HMM/NP模型 118
7.5.2 HMM/NP模型的训练 119
7.5.3 1状态与N状态遍历HMM/NP模型的实验与比较 120
7.6 基于时间延迟神经网络(TDNN)的说话人识别方法 120
7.6.1 TDNN的原理 120
7.6.2 TDNN用于说话人识别 122
7.7 基于二分类人工神经网络的与文本无关说话人识别 124
7.7.1 说话人识别系统的模块化结构 124
7.7.2 与文本无关二分类网络建立 126
7.8 识别系统结构与神经网络结构 127
说话人识别的进一步研究课题 130
参考文献 133
- 《中风偏瘫 脑萎缩 痴呆 最新治疗原则与方法》孙作东著 2004
- 《TED说话的力量 世界优秀演讲者的口才秘诀》(坦桑)阿卡什·P.卡里亚著 2019
- 《钒产业技术及应用》高峰,彭清静,华骏主编 2019
- 《现代水泥技术发展与应用论文集》天津水泥工业设计研究院有限公司编 2019
- 《异质性条件下技术创新最优市场结构研究 以中国高技术产业为例》千慧雄 2019
- 《Prometheus技术秘笈》百里燊 2019
- 《中央财政支持提升专业服务产业发展能力项目水利工程专业课程建设成果 设施农业工程技术》赵英编 2018
- 《药剂学实验操作技术》刘芳,高森主编 2019
- 《林下养蜂技术》罗文华,黄勇,刘佳霖主编 2017
- 《脱硝运行技术1000问》朱国宇编 2019