《数字音视频处理》PDF下载

购买积分：11 如何计算积分？
作　　者：韩冰主编；杨曦，张建龙副主编
出版社：西安：西安电子科技大学出版社
出版年份：2018
ISBN：9787560647654
页数：256 页

图书介绍：本书从人类脑科学的听觉、视觉出发，系统地介绍了听觉和视觉感知模型、数字音频技术、音视频（图像）压缩编码技术、音视频（图像）处理技术和基于内容的音视频检索技术等大部分内容。本书覆盖的学科领域十分广泛，包括人工智能、信号处理、图像处理、语音处理、视频处理和模式识别等一系列学科。

点击购买此书全本PDF电子书

第1章绪论 1

1.1 数字音视频基础 1

1.2 数字音视频技术的发展趋势 2

1.3 数字音视频系统的组成 3

1.4 本章小结 6

第2章听视觉处理的脑机制 7

2.1 听觉的生理基础 7

2.1.1 听觉感知模型的国内外研究现状 8

2.1.2 人类听觉系统简介 10

2.1.3 听觉特性 12

2.1.4 听觉掩蔽 13

2.1.5 听觉加工理论 14

2.2 视觉的生理基础 15

2.2.1 研究现状 15

2.2.2 视觉感知 17

2.2.3 人类视觉系统概述 24

2.2.4 视觉注意机制 25

2.3 本章小结 29

第3章数字音频技术基础 30

3.1 数字信号处理基础 30

3.1.1 线性和时不变 30

3.1.2 冲激响应和卷积 30

3.1.3 傅里叶变换、拉普拉斯变换和Z变换 31

3.1.4 离散时间傅里叶变换（DTFT）与离散傅里叶变换（DFT） 32

3.2 语音信号产生模型 33

3.2.1 语音信号产生机理 33

3.2.2 语音信号产生的数字模型 34

3.3 语音信号的时域模型 35

3.3.1 语音信号的预处理 35

3.3.2 短时平均能量 39

3.3.3 短时平均过零率 41

3.3.4 短时自相关函数 42

3.4 语音信号的频谱分析 45

3.4.1 短时傅里叶变换（STFT）的定义和物理意义 45

3.4.2 短时傅里叶变换的取样率 47

3.4.3 语音信号的重构 49

3.4.4 窗长及形状对STFT的影响 50

3.4.5 语音的语谱图分析 50

3.4.6 语音的倒谱 51

3.5 本章小结 52

第4章音视频获取软件和方法 53

4.1 音频信号采集软件和方法 53

4.1.1 常见的音频采集设备的特点 53

4.1.2 音频采集软件Windows录音机 53

4.1.3 音频处理工具Sony Sound Forge 55

4.2 图像/视频信号采集工具和方法 63

4.2.1 图像信息采集技术 63

4.2.2 视频信息采集技术 65

4.3 音频/视频格式的转换 85

4.3.1 音频格式转换 85

4.3.2 视频格式转换 87

4.4 本章小结 88

第5章音频压缩编码 89

5.1 音频压缩概述 89

5.1.1 音频信号 89

5.1.2 音频压缩的必要性和可能性 89

5.2 音频编码技术 90

5.2.1 波形编码 91

5.2.2 参数编码 93

5.2.3 混合编码 94

5.2.4 感知编码 95

5.3 MPEG音频编码标准 99

5.3.1 MPEG-1音频压缩编码标准 100

5.3.2 MPEG-2音频压缩编码标准 103

5.3.3 MPEG-4音频压缩编码标准 107

5.4 本章小结 112

第6章图像视频压缩编码 113

6.1 图像视频压缩概述 113

6.1.1 图像视频信号的特点 113

6.1.2 图像视频压缩的必要性和可行性 114

6.2 图像压缩编码技术 115

6.2.1 图像压缩编码系统的基本结构 115

6.2.2 统计编码 116

6.2.3 变换编码 123

6.2.4 矢量量化编码 124

6.2.5 预测编码 125

6.3 视频编码技术 127

6.3.1 视频编码系统的一般结构 127

6.3.2 视频编码方案分类 128

6.3.3 采用时间预测和变换编码的视频编码 129

6.4 静止图像压缩标准 133

6.4.1 JPEG静止图像压缩标准 133

6.4.2 JPEG 2000静止图像压缩标准 135

6.5 MPEG视频编码标准 136

6.6 本章小结 140

第7章数字音频处理技术 141

7.1 语音信号合成的基本方法 141

7.1.1 概述 141

7.1.2 共振峰合成法 142

7.1.3 线性预测合成法 144

7.1.4 基音同步叠加法 146

7.1.5 文语转换系统 148

7.2 语音识别的基本技术和方法 149

7.2.1 概述 149

7.2.2 语音识别原理 151

7.2.3 特征表示与提取 154

7.2.4 动态时间规整 154

7.2.5 有限状态矢量量化技术 156

7.2.6 孤立字（词）语音识别系统 158

7.2.7 连续语音识别系统 161

7.3 本章小结 162

第8章数字图像/视频处理技术 163

8.1 图像的低层视觉处理 163

8.1.1 概述 163

8.1.2 空域滤波增强 163

8.1.3 频域增强 169

8.2 图像的中层视觉处理 173

8.2.1 概述 173

8.2.2 图像分割的定义和依据 174

8.2.3 边缘点检测 175

8.2.4 边缘线跟踪 179

8.2.5 门限化分割 184

8.2.6 区域分割法 186

8.3 视频处理中的关键技术研究 188

8.3.1 概述 188

8.3.2 镜头边界检测 189

8.3.3 视频关键帧的提取方法 194

8.3.4 视频目标检测 199

8.4 本章小结 208

第9章基于内容的视频检索技术 209

9.1 引言 209

9.1.1 信息检索 209

9.1.2 多媒体检索 209

9.2 基于内容的音频检索 211

9.2.1 国内外研究现状 212

9.2.2 基于内容的音频检索的总体框架 217

9.2.3 基于内容的音频检索的难点 218

9.2.4 现有的音频检索系统 219

9.3 基于内容的图像检索技术 224

9.3.1 基于内容的图像检索系统的检索过程和关键技术 224

9.3.2 现有的图像检索系统 229

9.3.3 图像检索系统的发展趋势 232

9.4 基于内容的视频检索技术 233

9.4.1 引言 233

9.4.2 基于内容的视频检索及关键技术 235

9.4.3 现有的基于内容的视频检索系统 242

9.4.4 TRECVID（The Text RetrievalConference Video Track）会议 246

9.4.5 存在的问题及发展趋势 246

9.5 本章小结 248

参考文献 249