第一章 多媒体数据压缩技术 1
1.1 信息表示与编码 1
1.1.1 概述 1
目录 1
1.1.2 数字图像编码技术 3
1.1.3 多媒体数据转换 4
1.2 常用的数据压缩技术 5
1.2.1 概述 5
1.2.2 预测编码 6
1.2.3 变换编码 6
1.2.4 信息熵编码 8
1.3 静态图像压缩标准JPEG 11
1.3.1 JPEG标准的主要内容 11
1.3.2 JPEG静态图像压缩算法 12
1.4.1 MPEG标准简介 22
1.4 运动图像压缩标准MPEG 22
1.4.2 MPEG音频 24
1.4.3 MPEG视频数据流的结构 25
1.4.4 MPEG-1视频编码技术 26
1.4.5 MPEG-2标准 30
1.4.6 MPEG标准的应用 34
1.5 视听通信编码解码标准H.261 35
1.5.1 H.261标准简介 35
1.5.2 P×64kb/s视频压缩编码算法 35
1.5.3 视频层次数据结构 37
1.5.4 视听业务视频压缩标准的发展 38
1.6 声音编码 39
1.6.1 声音压缩标准 39
1.6.2 CCITT语音标准化方案 42
1.7 多媒体数据和应用的主要特征和要求 47
1.7.1 存储和带宽要求 48
1.7.2 多媒体信息的语义结构 49
1.7.3 延时和延时抖动要求 49
1.7.4 相关媒体的时间和空间关系 50
1.7.5 多媒体数据含义的主观性和模糊性 50
1.7.6 多媒体应用程序的数据库组织 50
1.7.7 多媒体系统的事务管理 52
1.8 小结 52
第二章 多媒体存储技术 54
2.1 磁介质技术 55
2.1.1 磁盘存储在多媒体上的使用 55
2.1.2 适用于AV(音频/视频)的磁盘驱动器 58
2.2 分层存储管理 60
2.2.1 永久存储与瞬时存储 61
2.2.2 光盘库 62
2.3 存储系统的高速缓冲存储器管理 64
2.2.3 分层存储的应用 64
2.3.1 低层次的磁盘高速缓冲存储 66
2.3.2 分层存储系统的高速缓冲存储器结构 71
2.3.3 分布式客户机——服务器系统的高速缓冲存储器 75
2.3.4 多媒体应用软件如何使用高速缓冲存储器 78
2.4 磁盘调度及许可控制 80
2.4.1 传统的磁盘调度算法 81
2.4.2 最早截止时间优先算法 82
2.4.3 扫描最早截止时间优先算法 82
2.4.4 循环调度算法(Round-Robin) 83
2.4.5 组扫描调度(GSS) 84
2.5 用户交互准备 84
2.5.1 暂停和继续 85
2.5.2 快进和后退 86
2.5.3 与用户交互有关的QoS问题 88
2.6 服务器配置和网络连接 88
2.7 小结 89
第三章 多媒体数据库技术 91
3.1 一些重要的定义 92
3.1.1 媒体类型和多媒体 92
3.1.2 数据库和DBMS(数据库管理系统) 93
3.1.3 文本文件信息检索 94
3.1.4 多媒体索引和检索 94
3.1.5 特征抽取、内容表示和索引 97
3.2 需要采用MIRS的原因 97
3.2.1 多媒体数据的扩张(Proliferation)及其特征 98
3.2.2 DBMS及其在处理多媒体数据中的作用 98
3.2.3 IR系统以及它们在多媒体检索中的作用 101
3.2.4 多媒体信息索引和检索的综合方法 102
3.3 MIRS系统结构 102
3.3.1 概述 102
3.3.2 MIRS基本结构 103
3.4 MIRS的预期功能和常见应用 105
3.5 多媒体数据管理 107
3.5.1 概述 107
3.5.2 多媒体数据的管理环境 107
3.5.3 多媒体数据库管理系统特点 110
3.5.4 多媒体数据库的功能要求 114
3.5.5 数据库语言SQL及其进展 115
3.6 多媒体系统的设计目标 117
3.6.1 多媒体应用程序的数据库组织 119
3.6.2 多媒体数据库的特点 123
3.6.3 多媒体数据库的事务管理结构 126
3.6.4 将超媒体记录当作对象来管理 128
3.7 多媒体数据库的关键技术问题 131
3.7.1 多媒体数据的性质 131
3.7.2 数据模型 131
3.7.4 体系结构 139
3.7.3 物理存储模型 139
3.7.5 时空编组与数据模拟 143
3.7.6 查询处理与索引机制 153
3.7.7 用户接口技术 156
3.8 特征抽取、索引和相似性度量 160
3.8.1 特征抽取概念 161
3.8.2 索引结构 162
3.8.3 相似性度量 163
3.8.4 基于内容的检索技术 163
3.8.5 实例介绍 165
3.9 面向对象的数据库模型 167
3.9.1 优点 167
3.9.2 面向对象的数据库系统结构 168
3.9.3 面向对象的数据库系统的存储结构和存取方法 170
3.10 小结 171
4.1 引言 172
第四章 多媒体的索引和检索技术 172
4.2 IR系统和DBMS之间的区别 173
4.3 自动文本文档索引和布尔检索模型 175
4.3.1 基本的布尔检索模型 175
4.3.2 文件结构 176
4.3.3 条目操作和自动索引 178
4.3.4 自动文档索引小结 181
4.4 向量空间检索模型 182
4.4.1 基本的向量空间检索模型 182
4.4.2 相关反馈技术 183
4.5 概率检索模型 184
4.6 基于集群的检索模型 185
4.6.1 集群的产生 185
4.6.2 基于集群的检索 186
4.7 非传统的IR方法 186
4.8 性能度量 187
4.9 不同的IR技术之间的性能比较 189
4.10 WWW搜索引擎 190
4.10.1 WWW简介 191
4.10.2 资源发现 193
4.10.3 IR系统和WWW搜索引擎的主要区别 195
4.10.4 WWW搜索引擎的一般结构 199
4.10.5 搜索引擎的一个例子 199
4.11 小结 203
第五章 音频的索引和检索 204
5.1 引言 204
5.2 主要音频性能和特征 207
5.2.1 从时域中推导出的特征 209
5.2.2 从频域中推导出的特征 210
5.2.3 频谱图 212
5.3.1 不同类型声音的主要特征 213
5.2.4 主观特征 213
5.3 音频分类 213
5.3.2 音频分类框架 214
5.4 语音识别和检索 216
5.4.1 语音识别 216
5.4.2 发音者识别 222
5.4.3 小结 222
5.5 音乐索引和检索 222
5.5.1 结构化音乐和声音效果的索引和检索 223
5.5.2 基于样本的音乐的索引和检索 224
5.6 使用音频和其它媒体之间的关系对多媒体信息进行索引和检索 226
5.7 小结 227
第六章 图像索引和检索 230
6.1 引言 230
6.2 图像索引和检索的各种不同的方法 231
6.3 基于文本的图像检索 233
6.4 基于颜色的图像索引和检索技术 235
6.4.1 基于颜色的图像检索技术 237
6.4.2 基本技术的改进 238
6.5 基于形状的图像检索 245
6.5.1 常用术语的定义和一些简单的形状度量方法 246
6.5.2 不变矩量 247
6.5.3 傅里叶描述符方法 248
6.5.4 重要边界的直方图 249
6.5.5 感兴趣点的排序列表 250
6.5.6 弹性模板匹配 250
6.5.7 基于区域的形状表示和相似性度量 251
6.6 基于纹理的图像检索 255
6.7 基于压缩图像数据的图像索引和检索 256
6.7.1 基于DCT系数的图像索引和检索 257
6.7.3 基于VQ压缩数据的图像索引和检索 258
6.7.2 基于小波系数的图像索引和检索 258
6.8 其它图像索引和检索技术 260
6.8.1 基于模型压缩的图像检索 260
6.8.2 基于空间关系的图像检索 261
6.9 综合图像索引和检索技术 261
6.9.1 QBIC 261
6.9.2 Virage图像搜索引擎 262
6.9.3 WebSEEK 262
6.9.4 ImageRoverWWW搜索引擎 263
6.10 小结 263
第七章 视频索引和检索 266
7.1 引言 266
7.2 基于镜头的视频索引和检索综述 267
7.3 视频镜头检测或分割 268
7.3.1 基本的视频分割技术 269
7.3.2 用渐进变化检测镜头边界 270
7.3.3 防止虚假的镜头检测 271
7.3.4 其它镜头检测技术 272
7.3.5 压缩视频的分割 273
7.4 视频索引和检索 274
7.4.1 基于r帧的索引和检索 275
7.4.2 基于动态信息的索引和检索 277
7.4.3 基于对象的索引和检索 278
7.4.4 基于元数据的索引和检索 279
7.4.5 基于注释的索引和检索 279
7.4.6 视频索引和检索的综合方法 280
7.5 有效的视频表示和抽象 280
7.5.1 题目或主题分类 281
7.5.2 动态图标或视频图标 282
7.5.3 视频横幅(Streamer) 283
7.5.4 剪辑图 283
7.5.5 分级视频浏览器 283
7.5.7 马赛克 284
7.5.6 故事板(Storyboard) 284
7.5.8 情景转换图 285
7.5.9 视频撇除 285
7.6 小结 285
第八章 综合多媒体索引和检索 287
8.1 引言 287
8.2 综合索引和检索技术 288
8.2.1 综合音频的索引和检索 289
8.2.2 综合图像的索引和检索 290
8.2.3 综合视频的索引和检索 290
8.2.4 基于单个特征所获得的结果的合并 291
8.2.5 媒体变换 292
8.3 多媒体信息管理的一般体系结构 292
8.4 用户界面 295
8.5 系统例子 296
8.5.1 QBIC 297
8.5.2 Monash大学开发的综合WWW图像搜索引擎 298
8.5.3 元搜索(MetaSearch)引擎 301
8.6 小结 304
第九章 有效的多媒体相似性搜索的技术和数据结构 305
9.1 引言 305
9.2 降低搜索空间的过滤过程 307
9.2.1 使用分类、结构化属性和关键词的过滤 307
9.2.2 基于三角不等式的方法 308
9.2.3 基于颜色直方图检索的方法 309
9.2.4 基于向量空间IR的潜在语义索引 311
9.3 B+树和B树 312
9.3.1 B+树 313
9.3.2 B树 315
9.4 集群 315
9.5 多维B+树 316
9.5.1 二维空间中MB+树的综述 317
9.5.2 构建一个二维MB+树 318
9.5.3 MB+树中的搜索 318
9.5.4 高维MB+树 320
9.6 k-d树 320
9.7 网格文件 321
9.8 R树族 322
9.8.1 R树结构综述 322
9.8.2 区域对象的搜索、插入和删除 323
9.8.3 点数据的搜索、插入和删除 324
9.8.4 R树的搜索效率 324
9.8.5 R*树、R+树和VAMSplit R树 325
9.8.6 SS树和SS+树 325
9.9 TV树 326
9.10 小结 326
参考文献 328