《语音合成》PDF下载

  • 购买积分:14 如何计算积分?
  • 作  者:(美)Jan P.H.van Santen等编;蔡莲红,杨鸿武,吴志勇等译
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2005
  • ISBN:7111155297
  • 页数:404 页
图书介绍:本书介绍了语音合成技术近年来取得的进展等。

第一部分 信号处理和声源建模 1

第1章 简介:TTS中声门声源建模新方法 1

1.1 声门声源建模简介 1

目录 1

1.2 替换单脉冲激励 2

1.3 本部分指南 2

1.4 小结 3

参考文献 3

第2章 声门音位变体的合成 4

2.1 引言 4

2.2 实验数据 5

2.3.1 材料 6

2.3 合成实验 6

2.3.2 模型 8

2.3.3 方法 8

2.4 各个源参数对声门化的贡献 12

2.5 讨论 14

2.6 小结 15

参考文献 16

第3章 带有激励源参数动态控制的语音合成 17

3.1 引言 17

3.2 激励源模型 17

3.2.1 周期性激励 17

3.2.3 LF模型 18

3.2.2 非周期性激励 18

3.3 分析过程 19

3.4 分析结果 21

3.4.1 语音材料 21

3.4.2 元音 21

3.4.3 元音边界 23

3.5 小结 23

参考文献 23

第4章 合成中语音信号非周期成分的修改 25

4.1 引言 25

4.2 语音信号分解 26

4.3 非周期成分的分析和合成 29

4.4 评价 31

4.5 语音修改 32

4.5.1 时间缩放 33

4.5.2 频谱修改 33

4.5.3 非周期成分脉冲的修改 33

4.5.4 周期/非周期信号比例的修改 33

4.6 讨论和结论 34

参考文献 34

第5章 文语转换中利用正弦模型的语音合成 36

5.1 引言 36

5.2 正弦模型概述 37

5.4 正弦合成 38

5.5.1 谐波正弦模型 38

5.3 正弦分析 38

5.5.2 系统幅度和相位 39

5.5.3 激励幅度和相位 40

5.6 简化正弦模型的参数 41

5.7 基频和时长修改 41

5.7.2 激励贡献 42

5.8 分析和再合成实验 42

5.7.1 系统贡献 42

5.9 结论 44

参考文献 44

第二部分 语言学分析 46

第6章 简介:TTS合成系统中的文本分析 46

参考文献 47

第7章 语言无关面向数据的字音转换 48

7.1 引言 48

7.2 系统设计 49

7.2.1 对准 49

7.2.2 IG树:压缩和分类构造 50

7.3 相关方法 53

7.4.1 连接 54

7.4.2 基于知识的语言学方法 54

7.4 性能评价 54

7.5 结论 55

参考文献 56

第8章 语音合成中的全韵律结构 57

8.1 引言 57

8.2 系统结构 58

8.2.1 分析部分 58

8.2.2 语音解释部分1:时间的解释 60

8.2.3 语音解释部分2:参量解释 61

8.2.4 参数的产生与合成 63

8.3 多音节 词 63

8.3.1 双音节 64

8.3.2 元音削弱和语音韵律 65

8.4 连续语音 67

8.5 总结 68

参考文献 69

第9章 一种非音段音位结构的定时模型 71

9.1 引言 71

9.2.1 参数化解释的原理 72

9.2.2 结构化的音位表示 72

9.2 音节 联接及其在YorkTalk中的语音解释 72

9.3 节 律描述及建模 73

9.4 YorkTalk与自然语音及其他合成系统的比较 76

9.5 结束语 77

参考文献 77

第10章 一个完整的意大利语文语转换系统的语言分析 80

10.1 引言 80

10.2 形态分析 81

10.2.1 问题的定义 81

10.2.2 有关词典 82

10.2.3 形态分析器 84

10.3 语音转换 85

10.3.1 问题的定义 85

10.3.2 自动重音分配 86

10.3.3 开元音和闭元音 86

10.4 形态-语法分析 87

10.4.1 预分析器 87

10.3.4 浊辅音和清辅音 87

10.4.2 形态-句法分析器 88

10.4.3 语法解析器 89

10.5 性能评价 90

10.6 结束语 91

参考文献 91

11.1 引言 93

11.2 记叙文研究 93

第11章 记叙文中重音的语篇 结构限制 93

11.2.1 分析 94

11.2.2 结果 94

11.3 基于语篇 的重音功能解释 95

11.3.1 注意状态的建模 96

11.4 重音的语篇 功能 98

11.4.1 局部焦点的处理:代词 98

11.3.2 记叙文的语篇 分析 98

11.4.2 全局焦点的处理:显式形式 100

11.5.1 旧信息和新信息 101

11.5.2 主题划分 101

11.5 讨论 101

11.5.3 相对重要性 102

11.6 结束语 103

参考文献 103

11.5.4 小结 103

12.1 引言 106

12.2 已有的方法 106

第12章 文语转换中的同形异音字消歧 106

12.3 算法 107

12.4 歧义类的决策列表 113

12.4.1 类模型:创建 113

12.4.3 类模型:结合先验概率 114

12.4.4 罗马数字 114

12.4.2 类模型:使用 114

12.5 评价 115

12.6 讨论和结论 116

参考文献 117

第三部分 发音器官合成与可视语音 119

第13章 简介:语音合成中“讲话的头” 119

参考文献 121

第14章 简介:发音器官合成与可视语音 122

参考文献 124

第15章 语音模型与语音合成 126

15.1 主题和一些例子 126

15.2 十五年的语调合成 127

15.3 时间模型 135

15.4 结束语 139

参考文献 139

第16章 基于伪发音器官参数合成语音片段的框架 145

16.1 引言 145

16.2 控制参数和映射关系 146

16.3 利用HL参数合成的例子 147

16.4 合成规则 149

参考文献 151

17.1 引言 152

17.2 发音器官合成 152

第17章 基于生物机械学和病理生理学的语音建模 152

17.3 一个有限元舌头模型 153

17.3.1 为软组织建模 153

17.3.2 舌头模型研究概要 154

17.4 控制器 156

17.5 结论 159

参考文献 159

18.1 引言 161

18.2 参数模型 161

第18章 会说话人脸的分析——合成与可懂度 161

18.3 视频分析 162

18.4 实时分析-合成 163

18.5 模型的可懂度 164

18.5.1 刺激数据的准备 164

18.5.2 整体可懂度 165

18.5.3 辅音混淆度 166

18.5.4 元音混淆度 167

18.6 视频分析 168

参考文献 169

19.1 引言 170

19.2 2D嘴唇模型 170

第19章 可视语音合成中的3D嘴唇与下腭模型 170

19.3 3D嘴唇模型 172

19.4 嘴唇模型的动画 174

19.5 下腭模型 175

19.6 嘴唇和下腭模型的动画 176

19.7 嘴唇和下腭模型的评价 176

19.8 结论 177

参考文献 177

第四部分 拼接式语音合成与自动切分 179

第20章 简介:拼接式语音合成 179

第21章 德语拼接式语音合成中的混合基元结构 181

21.1 引言 181

21.2.1 实验材料 182

21.2.2 浊音清化现象 182

21.2 自然语音概述 182

21.2.3 同化现象 183

21.2.4 音节 边界位置 183

21.2.5 元音前后的辅音 184

21.2.6 结论 184

21.3.1 拼接方法 185

21.3.2 基元结构 185

21.3 基元结构与拼接规则 185

21.3.3 基元定义 186

21.3.4 拼接规则 186

21.4 感知评估 187

21.4.1 配对比较实验 188

21.4.2 音段可懂度测试 190

21.5 小结 191

参考文献 192

第22章 拼接式语音合成中的韵律及基元选取 194

22.1 引言 194

22.2 切分及韵律标注 195

22.3.1 语音类别及音段样本 196

22.3.2 确定语音基元 196

22.3 语音数据库基元定义 196

22.3.3 数据库裁减 198

22.4 基于韵律的语音基元选取 198

22.5 实验及评估分析 200

22.5.1 实验1:使用全部数据库进行测试 200

22.5.2 实验2:使用裁剪后的数据库进行测试 202

22.6 讨论 202

22.7 结论 203

参考文献 204

23.1 引言 206

23.2 未优化的双音子集合 206

第23章 双音子的优化拼接 206

23.3 不匹配度度量方法 207

23.3.1 简单帧不匹配度 207

23.3.2 考虑帧以及回归系数的不匹配度 209

23.3.3 基于帧窗口线性拟合的不匹配度 211

23.4 实验评估 212

23.4.1 总体考虑 212

23.3.4 给定时长的最小不匹配度 212

23.4.2 感知实验 213

23.5 结论 214

参考文献 214

第24章 应用于拼接基元选取的自动语音切分 216

24.1 引言 216

24.2 自动标注算法 216

24.2.1 音位结构学模型 216

24.2.2 时长模型 217

24.2.3 音素声学模型 217

24.2.4 切分算法 217

24.2.5 训练算法 218

24.3 切分实验 218

24.4 结论 220

参考文献 221

第25章 Aligner:使用Markov模型进行文语对齐 222

25.1 引言 222

25.2 Aligner的操作 224

25.2.1 产生语音序列 224

25.2.2 文语对齐 225

25.3 评估实验 225

25.4 讨论和结论 228

参考文献 229

第五部分 自然语音的韵律分析 230

第26章 简介:韵律分析:一条双重途径? 230

第27章 简介:自然语音的韵律分析 232

28.2 自动提取F0控制规则的算法 234

28.1 引言 234

28.2.1 规则提取过程概述 234

第28章 利用统计分析自动提取F0控制规则 234

28.2.2 F0包络分解 235

28.3 F0控制规则提取实验 237

28.3.1 语音数据及参数提取条件 237

28.2.3 统计规则提取 237

28.3.2 用以建模的语言学参数 238

28.3.3 F0控制规则解释 239

28.4 小结 241

参考文献 243

第29章 语音合成中音高包络规格化方法的比较研究 245

29.1 引言 245

29.2 基于音调感知的自动规格化方法 246

29.2.1 理论基础 246

29.2.2 音调感知和韵律分析 247

29.2.3 算法描述 248

29.2.4 讨论 250

29.3 手工直线规格化方法 251

29.4 感知和直线规格化方法的比较 252

29.4.1 两种方法的差异 252

29.4.2 感知实验 253

29.5 结论 255

参考文献 255

第30章 z-Score模型中的停顿生成 257

30.1 引言 257

30.2.2 周期的吸引者 259

30.2.1 关于每个音节 一个参照点的争论 259

30.2.3 感知中心的声学互相关性 259

30.2 节 奏和感知中心 259

30.4 Barbosa-Bailly模型 260

30.3 Campbell模型 260

30.4.1 IPCG时长预测 260

30.2.4 感知中心在感知调整上的重要性 260

30.4.2 语料 262

30.4.3 在重新分配算法中加入停顿现象 263

30.4.4 自动学习 264

30.5 感知测验 265

30.6 小结 266

参考文献 266

31.1 引言 270

31.2 数据库 270

第31章 贝尔实验室里文语转换系统的时长研究 270

31.3 时长模型 274

31.3.1 元音 275

31.3.2 摩擦音 276

31.3.3 爆发和送气 276

31.3.4 结尾部分 277

31.3.5 时长估计 277

31.4 讨论 278

31.4.1 补偿效应 278

31.4.2 句尾效应的缺失 279

31.5 小结 280

参考文献 281

第32章 德语语调曲线的合成 283

32.1 引言 283

32.2 语调模型 284

32.3 参数估计 286

32.4 基于规则的F0合成 287

32.5 感知实验 288

32.6 小结 291

参考文献 292

33.1 引言 294

33.2 语音素材 294

第33章 说话风格对基频包络参数影响的研究 294

33.3 基频包络参数分析 295

33.3.1 提取基频包络参数 295

33.3.2 不同风格间的F0参数比较 296

33.4 说话风格转换 298

33.4.1 转换到其他说话风格的转换规则 298

33.4.2 转换语音的评价实验 299

33.4.3 评价测试结果 299

33.5 小结 301

参考文献 302

34.1 引言 303

第34章 简介:文本与韵律 303

34.2 控制TTS系统中的韵律 303

第六部分 韵律合成 303

34.3 TTS中语音风格的控制 304

34.4 抽象语音结构和语音事实 304

参考文献 305

35.1 引言 306

35.2 使用自下而上的分析建立音位表现 306

第35章 简介:语调的语音表现 306

35.4 语音表现和认知功能 307

35.5 韵律原型 307

35.3 使用自上而下的分析建立语音模型 307

35.6 结论 308

参考文献 309

第36章 瑞典语语调生成的词典语法信息计算提取 311

36.1 引言 311

36.2 瑞典语韵律结构 313

36.2.1 韵律词 313

36.2.2 韵律短语 314

36.2.3 韵律话语 315

36.2.4 末位延长与静音间隔 315

36.3 韵律结构组件的设计 316

36.4 性能 319

36.5 技术数据 319

36.6 小结 320

参考文献 320

第37章 用TTS符号输入进行的韵律变量参数控制 322

37.1 KIM-Kiel声调模型 322

37.1.1 概述 322

37.1.2 重音 322

37.1.3 语调 323

37.1.4 参数的语音控制 324

37.1.5 模型的语言学环境 326

37.2 韵律范畴的符号表示 327

37.2.1 模型的符号输入 327

37.2.2 德语RULSYS/INFOVOX TTS系统参数控制的符号输入 328

37.3 韵律建模、韵律标注与合成的开发系统 329

参考文献 333

38.2 一套语调域理论 334

38.1 引言 334

38.2.1 语调域和韵律层级 334

第38章 语音合成中的韵律和语调域 334

38.2.2 相关域 336

38.2.3 AD重构 336

38.2.4 AD重构的约束 337

38.3.1 实验假设 338

5.5 一般模型的简化 338

38.3 重构语调域:一个实验 338

38.3.2 实验所用语料 339

38.3.3 实验方法 340

38.3.4 实验结果 341

38.4 讨论 342

38.4.1 效果估量 342

38.4.2 语调域理论的推论 342

38.4.3 语音合成的推论 343

38.5 结论 343

参考文献 343

第39章 说话风格:使用文语转换系统进行统计分析和合成 345

39.1 引言 345

39.2 语料 345

39.3.2 共振峰频率特性 346

39.3 不同说话风格的谱特性 346

39.3.1 分析方法 346

39.3.3 频谱倾斜特性 347

39.4 不同说话风格的韵律特性 347

39.4.1 基频特性 347

39.4.2 音段时长的特征 349

39.5 在文语转换系统中变换说话风格的一个策略 350

39.5.1 不同说话风格的规则 350

39.5.2 本文的TTS系统 351

39.5.3 听辨评测 352

39.6 结论 353

参考文献 353

第七部分 评价与感知 353

40.1 语音技术与标准 355

第40章 简介:内部评价还是外部评测 355

40.2 为什么要在内部评价系统? 356

40.3 怎样从外部评测系统? 356

40.4 关于人所处的地位 357

参考文献 358

第41章 评估TTS系统的结构化方法 359

41.1 问卷 359

41.1.1 问卷结果 359

41.1.2 数据库 361

41.1.3 参考书目 361

41.2 评价语音产生系统的结构化方法 361

41.2.1 系统详述 362

41.2.2 测试详述 362

41.2.3 举例 363

参考文献 364

第42章 评价用于合成名称的TTS系统 365

42.1 引言 365

42.2 名称的字音转换 366

42.2.1 系统概述 367

42.2.2 字音转换的客观评价 368

42.3 字音转换的感知评价 369

42.3.1 测试设计 369

42.3.2 结果 370

42.4 小结 371

参考文献 372

第43章 合成语音的感知 373

43.1 引言 373

43.2 合成语音的可懂度 374

43.3 合成语音的理解 376

43.4 感知编码技术 379

43.5 语音感知中的一些认知因素 381

43.6 一些新的研究方向 382

参考文献 383

第八部分 系统与应用 387

第44章 简介:应用的简单历史 387

参考文献 388

第45章 多语种文语转换的模块化结构 389

45.1 引言 389

45.2 系统结构 389

45.2.1 NewTTS的英语版 389

45.2.2 模块之间的通信 390

45.2.3 模块结构的优点 391

45.3 在其他语言中的应用 392

45.4 声音文件 393

参考文献 393

46.2 语音输出技术 395

46.2.1 回放预录语音 395

第46章 实际应用中消息到高质量语音的产生 395

46.1 引言 395

46.2.2 文语转换 396

46.2.3 韵律问题 396

46.2.4 韵律短语的拼接 397

46.2.5 韵律后处理 398

46.3 单词拼接和PSOLA 398

46.3.1 Appeal系统 398

46.3.2 Appeal系统中的语音 399

46.3.3 专注的韵律 399

46.3.4 举例 400

46.3.5 一些评论 401

46.4 讨论与结论 401

参考文献 404