《现代语音技术基础与应用》PDF下载

  • 购买积分:13 如何计算积分?
  • 作  者:蔡莲红等编著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2003
  • ISBN:7302072779
  • 页数:367 页
图书介绍:本书共分为8章。第1章概述语音处理研究的问题和方面。第2章介绍数字信号处理和语音处理基础。第3章从工程角度简单介绍了语音基础知识和资料库。第4章介绍语音编码的算法和国际标准。第5章介绍语音合成的原理和文字——语音转换系统。第6章介绍语音识别基础。第7章介绍了可视语音和汉语视值。第8章介绍典型语言系统及应用。

目录 1

第1章 绪论 1

1.1 言语过程 2

1.2 语音技术的研究范围 3

1.3 数字信号处理与数字语音信号处理 4

第2章 语音信号处理基础 5

2.1 数字信号处理基础 5

2.1.1 离散时间信号与系统 5

2.1.2 离散傅立叶变换 7

2.1.3 Z变换 8

2.1.4 离散余弦变换 10

2.1.5 卷积和滤波 11

2.2 语音信号产生模型 14

2.2.1 语音的产生机理 14

2.2.2 级联声管模型 17

2.2.3 语音生成模型 22

2.3 语音信号的时域处理 23

2.3.1 语音信号的抽样和量化 23

2.3.2 语音信号的短时 24

分析和预处理 24

4.4 参数编码与混合编码 1 24

2.3.3 短时能量、短时平均幅度 26

和短时平均过零率 26

2.3.4 语音的端点检测 27

2.3.5 短时自相关函数 29

2.3.6 短时基音周期估计 30

2.4 语音信号的频谱分析 32

2.4.1 短时傅立叶变换和语谱图 32

2.4.2 同态信号处理的基本原理 34

2.4.3 复倒谱和倒谱 35

2.5 语音信号的线性预测编码分析 37

2.5.1 线性预测的基本原理 38

2.5.2 线性预测方程组的解法 40

2.5.3 线谱对参数 45

2.6 语音信号的矢量量化 47

2.6.1 矢量量化的基本原理 47

2.6.2 失真测度 49

2.6.3 量化器和码本的设计 50

2.6.4 量化系统的复杂度控制 52

2.7 听觉特性和语音感知 54

2.7.1 听阈与听域 55

2.7.2 音调(pitch) 55

2.7.3 向度级、响度与遮掩效应 56

3.1.2 音素的分类和特点 58

3.1 语音基础知识 58

3.1.1 国际音标 58

第3章 语音基础知识与语料库 58

3.2 汉语的特点 62

3.2.1 汉语拼音方案 63

3.2.2 汉语音素及其分类 65

3.3 汉语的音节 66

3.4 汉语的声调 70

3.4.1 汉语的声调的特点 70

3.4.2 声调的标记 71

3.4.3 声调的声学特性 72

3.4.4 动态声调 75

3.5.2 语调的模式 78

3.5 汉语的语调 78

3.5.1 关于语调 78

3.6 语音语料库 79

3.6.1 概述 79

3.6.2 语音语料库的设计与建设 81

3.6.3 TIMIT 87

3.7 基于语料库的语音学研究 92

3.7.1 声学参数的统计分析 93

3.7.2 音节聚类研究 96

3.7.3 音域模型初探 100

第4章 语音编码 107

4.1 语音编码基础 107

4.1.1 信息论基础 107

4.1.2 语音编码分类 108

处理领域 109

4.1.3 语音编码与其他语音 109

4.2 语音编码的评价方法和依据 110

4.2.1 语音编码的评价方法 110

4.2.2 语音编码的评价依据 112

4.3 波形编码及其国际标准 113

4.3.1 标量量化 113

4.3.2 瞬时压扩 116

4.3.3 自适应差值脉冲编码 117

4.3.4 G.721-32 kbps自适应差值脉冲编码调制(ADPCM) 119

4.4.1 编码参数及其量化 125

4.4.2 LPC-10声码器 126

4.4.3 编码结构的改进 129

语音编码标准 131

4.4.4 低延时CELP 16 kbps 131

4.4.5 G.723.1双速率多媒体通信传输语音编码器 137

4.5 码本设计与生成 150

4.5.1 G.728激励码本 151

4.5.2 G.729激励码本 152

4.6 感知编码 154

4.6.1 感知编码原理 155

4.6.2 感知编码算法 158

第5章 语音合成 166

5.1 语音合成研究的历史和现状 167

5.2 语音合成方法 168

5.2.1 共振峰合成 169

5.2.2 波形拼接合成 174

5.3.1 文本分析概述 180

5.3 TTS系统的文本分析和韵律 180

预测 180

5.3.2 文档结构分析 184

5.3.3 文本规范化(text 186

normalization) 186

5.3.4 语法分析 190

5.3.5 韵律分析 201

5.3.6 字音转换 203

5.3.7 小结 205

5.4 韵律建模 206

5.4.1 韵律的描述 206

5.4.2 韵律与句法 214

5.4.3 韵律建模 215

5.5 文语转换系统 222

5.5.1 汉语TTS系统Sonic 223

5.5.2 基于大语料库的TTS 225

系统 225

5.5.3 基于匹配代价函数的 227

基元选取 227

5.5.4 权重的设定和训练 229

5.6 语音合成技术展望 230

第6章 语音识别 232

6.1 语音识别基础 232

6.1.1 语音识别基本原理 233

6.1.2 语音识别分类 233

6.2.1 LPC倒谱系数(LPCC) 234

6.2 特征表示与提取 234

6.2.2 Mel频率倒谱系数 236

(MFCC) 236

6.2.3 特征提取的具体问题 238

6.3 模板匹配技术 239

6.3.1 相似性度量 239

6.3.2 动态时间规整(DTW) 240

6.3.3 特征模板训练 242

6.4 隐马尔可夫模型(HMM) 244

6.4.1 HMM基本概念与原理 245

6.4.2 前向概率与后向概率 247

6.4.3 HMM模型的三个问题 249

6.4.4 HMM模型的训练 252

6.4.5 HMM求解具体问题 258

6.4.6 HMM的结构和类型 260

6.4.7 HMM模型相似性比较 262

6.5 孤立词及连接词识别 262

6.5.1 孤立词识别 262

6.5.2 HMM模型参数选择 264

6.5.3 HMM模型参数训练—— 264

分段K均值算法 264

6.5.4 连接词识别 265

6.6 连续语音识别 268

6.6.1 连续语音识别整体模型 269

6.6.2 声学模型 269

6.6.3 语言模型 272

6.7 说话人识别 273

与系统性能评价 274

6.7.1 说话人识别的基本原理 274

6.7.2 说话人识别的特征选择 276

6.7.3 说话人识别的基本方法 278

第7章 可视语音 282

7.1 概述 282

7.2 看得见的语音 283

7.2.1 语音波形图 283

7.2.2 语谱图 284

7.2.3 可视发音器官的运动 286

7.3 视位 288

7.3.1 视位的定义 288

7.3.2 视位的参数表示方法 289

7.3.3 视位的非参数表示方法 290

7.3.4 汉语视位 294

态视位模型 296

7.4 动态视位模型 296

7.4.1 基于权值融合的动 296

7.4.2 视位数据的自动提取 298

7.4.3 动态视位模型的参数 302

估十 302

7.5 文本-可视语音转换 303

7.5.1 基于参数控制的方法 304

7.5.2 基于数据驱动的方法 306

7.6 机器自动唇读 308

7.6.1 视觉特征 308

7.6.2 实现方法 308

7.7 双模态语音识别 310

7.7.1 双模态信息融合的时间 311

7.7.2 双模态信息的同步 311

融合权重 312

7.7.3 确定双模态信息的 312

7.8 音视频映射 313

7.8.1 语音特征选取 314

7.8.2 基于矢量量化分类 314

的方法 314

7.8.3 基于混合高斯模型的 315

方法 315

7.8.4 基于神经网络的方法 316

7.8.5 基于隐马尔可夫模型 317

的方法 317

7.8.6 基于支持向量回归的 317

方法 317

8.1.1 概述 321

对话系统ISIS 321

8.1 多模态三语种分布式口语 321

第8章 系统与应用 321

8.1.2 对KQML软件代理的 325

授权 325

8.1.3 ISIS中的多模态 327

8.1.4 小结 330

8.2 人机口语对话系统与应用 330

8.2.1 口语对话系统 330

8.2.2 清华大学校园导游 336

系统EasyNav 336

8.2.3 电话航班订票与信息查询 341

系统EasyFlight 341

SinoSonic 346

8.3 炎黄之声语音合成服务器 346

8.3.1 语音合成服务器概述 347

8.3.2 语音合成服务器体系 347

结构 347

8.3.3 SinoSonic语音合成 350

服务器的应用 350

8.3.4 Monternet(移动梦网)统一消息平台语音技术应用TTS 352

8.3.5 TTS在其他领域的应用和 353

今后的工作 353

8.4 IBM语音解决方案简介 353

8.4.1 桌面听写机系统(ViaVoiceDesktop) 354

8.4.2 电话语音识别系统(ViaVoiceTelephony) 355

8.4.3 嵌入式ViaVoice技术 356

8.4.4 WebSphere Voice Server 356