第一章 序论 1
第二章 声音的基本性质 4
2.1 声音和语言 4
2.2 听觉和声音 5
2.3 声音形成的机理 7
2.4 音素的音响性质 11
2.5 声音的统计模型 16
3.1 声音形成的音响理论 21
第三章 声音形成的数字模型 21
3.2 线性分离等效电路模型 23
3.3 声道内声波的传播模型 24
3.4 声带振动模型和声音形成实体模型 31
3.5 音调模型 33
第四章 在时域及频域中的声音处理 37
4.1 声音信号的数字处理 37
4.2 声音特征提取 43
4.3 短时间自相关和频谱 46
4.4 对数倒频谱 51
4.5 数字滤波组合和零交叉数分析 55
4.6 合成分析(A-b-S) 57
4.7 声音信号编码 58
4.8 分析合成系统的基本结构 62
4.9 音调提取 67
第五章 线性预测分析 70
5.1 线性预测分析原理 70
5.2 线性预测分析的解法 72
5.3 最优频谱推定法 75
5.4 从预测残留误差中提取音源信息 81
5.5 利用线性预测分析的声音分析合成系统 85
5.6 PARCOR分析(部分自相关分析) 86
5.7 PARCOR分析合成系统 94
5.8 根据PARCOR分析推测声道断面积函数 102
5.9 LSP分析 105
5.10 LSP分析合成系统 109
5.11 极零模型 113
第六章 声音波形编码 116
6.1 时间域内的编码 116
6.2 频率域内的编码 129
6.3 分析合成系统与波形编码的组合 136
6.4 矢量量化(VQ) 149
6.5 编码方式评估 155
第七章 声音合成 160
7.1 声音合成原理 160
7.2 录音编辑方式的声音合成 163
7.3 参量编辑方式的声音合成 163
7.4 声道模拟及终端模拟合成方式 165
7.5 规则合成方式的声音合成 168
7.6 课文声音合成 172
第八章 声音识别 177
8.1 声音识别原理 177
8.2 声音区间检测 181
8.3 频谱距离尺度 182
8.4 单词声音识别系统的构成 190
8.5 时间轴的归一化 191
8.6 以音素为单位的单词声音识别 198
8.7 单音节声音识别 202
8.8 连续单词声音识别 204
8.9 会话声音识别 210
8.10 会话声音识别的实例 214
8.11 普通讲话者单词声音识别 220
8.12 个人声音差别的归一化和适应性 225
第九章 讲话者识别 229
9.1 讲话者识别原理 229
9.2 讲话者识别中所采用的特征 230
9.3 讲话者识别的分类 231
9.4 讲话者识别系统的结构 232
9.5 识别错误率和讲话者数的关系 235
9.6 特征参数的长时间变动和有效性评价 236
9.7 发音内容依存型的讲话者识别系统 239
9.8 发音内容独立型的讲话者鉴别系统 242
第十章 数字声音处理的今后课题 246
10.1 声音合成的课题 246
10.2 声音识别课题 247
10.3 讲话者识别课题 248
10.4 声音分析合成系统和编码的课题 249
10.5 声音处理的共通性课题 249