第1篇 绪论 3
第1章 引言 3
1.1 为什么需要基于内容的视觉信息检索 3
1.1.1 视觉信息的快速增长 3
1.1.2 视觉信息检索 4
1.1.3 传统视觉信息检索的局限 5
1.2 什么是基于内容的视觉信息检索 6
1.2.1 基于内容视觉信息检索的特点 6
1.2.2 基于内容的视觉信息检索示例 7
1.3 如何实现基于内容的视觉信息检索 9
1.3.1 归档和检索流程图 9
1.3.3 所需的基础知识 10
1.3.2 查询和检索需解决的问题 10
1.4基于内容视觉信息检索的发展 11
1.4.1 第一代视觉信息检索系统 11
1.4.2 新一代视觉信息检索系统 12
1.4.3 目前状况和回顾 13
1.5 本书概要 14
1.5.1 整体框架安排 14
1.5.2 各章概要 15
参考文献 17
第2章 基于内容视觉信息检索的基本技术 21
2.1 基本工作框架和功能模块 21
2.1.1 基本框架 21
2.1.2 模块功能简介 22
2.2.1 查询模块和技术 23
2.2 图象检索技术 23
2.2.2 描述模块和技术 25
2.2.3 匹配模块和技术 27
2.2.4 提取模块和技术 30
2.2.5 验证模块和技术 31
2.3 视频检索技术 31
2.3.1 视频查询和访问 31
2.3.2 视频组织和描述 32
2.3.3 视频匹配要点 34
2.3.4 视频提取和特点 34
2.3.5 对返回视频的验证 35
2.4 检索涉及的领域和技术 36
参考文献 37
第3章 检索系统及其应用领域 39
3.1 典型的图象检索系统 39
3.1.1 图象检索系统功能和概况 39
3.1.2 QBIC 40
3.1.3 计算机辅助人面像推断和检索系统 41
3.2 典型的视频检索系统 42
3.2.1 视频检索系统特点和概况 42
3.2.2 面向对象的视频信息数据库 43
3.2.3 视频索引和检索原型系统 44
3.2.4 代数视频系统 45
3.3 系统性能指标和评价准则 47
3.4 基于内容视觉信息检索的应用领域 49
参考文献 50
第2篇基于内容的图象检索 57
第4章基于颜色特征的图象检索 57
4.1 颜色模型 57
4.1.1 面向硬设备的颜色模型 58
4.1.2 面向视觉感知的颜色模型 60
4.1.3 均匀颜色空间模型 63
4.2 颜色特征的表达 64
4.2.1 统计直方图 64
4.2.2 累积直方图 65
4.2.3 颜色布局 66
4.3 颜色匹配算法 67
4.3.1 简单直方图匹配方法 67
4.3.2 累积直方图及优越性 69
4.4 对10种基于颜色特征检索方法的比较 71
4.4.1 10种检索算法及编号 71
4.4.2 实验结果 72
4.4.3 结果分析和讨论 74
4.4.4 HVC和HSI彩色空间的比较 75
4.5 局部累加直方图方法 76
4.5.1 局部累加直方图 76
4.5.2 相似色区间的划分 77
4.5.3 基于局部累加直方图的4种检索算法 80
4.5.4 算法性能检验及结果 81
参考文献 82
5.1.1 纹理概述 84
5.1 纹理描述模型 84
第5章基于纹理特征的图象检索 84
5.1.2 基于空间性质的纹理模型 85
5.1.3 基于频域性质的纹理模型 87
5.1.4 基于结构感知性质的纹理模型 88
5.2 统计法纹理描述 88
5.2.1 基本纹理描述符 88
5.2.2 分形模型 91
5.3 频谱法纹理描述 93
5.3.1 基于傅里叶变换的纹理描述 93
5.3.2 基于小波变换的纹理描述 94
5.3.3 国际标准MPEG-7推荐的纹理描述符 94
5.4 结构法纹理描述 95
5.5 基于纹理的检索方案 96
5.6 利用纹理特征的检索算法示例 98
参考文献 100
第6章基于形状特征的图象检索 102
6.1 形状描述 102
6.1.1 形状描述概述 102
6.1.2 基于外部参数的形状描述 103
6.1.3 基于内部参数的形状描述 106
6.1.4 基于变形的形状描述 108
6.2 基于形状的检索 109
6.2.1 基于特征的方法 110
6.2.2 基于变换域的方法 113
6.2.3 基于变形的方法 114
6.2.4 草图查询 115
6.3 小波轮廓描述符 116
6.3.1 小波轮廓描述符的定义 117
6.3.2 小波轮廓描述符的性质 118
6.3.3 相对傅里叶轮廓描述符的一些优越性 120
6.4 小波模极大值和多尺度不变矩方法 123
6.4.1 小波模极大值 123
6.4.2 算法要点 125
6.4.3 实验及结果 126
参考文献 130
第7章 基于空间关系的图象检索 134
7.1 空间关系概述 134
7.2 基于目标结构的表达 136
7.2.2 四叉树 137
7.2.1 网格 137
7.2.3 二叉树 138
7.2.4 K-d树 139
7.2.5 R-树 139
7.3 基于关系的表达 140
7.3.1 符号投影和2-D串表达 140
7.3.2 2-D串族 142
7.3.3 变换下不变的表达 145
7.4 度量关系 148
7.4.1 空间距离测量 148
7.4.2 空间朝向测量 149
7.5 利用空间关系查询和检索 151
7.5.1 使用文字查询和检索 151
7.5.2 利用范例的图标查询和检索 152
7.5.3 借助草图查询和检索 155
7.6 利用子区域向量匹配的空间关系检索 155
7.6.1 算法原理和步骤 155
7.6.2 算法应用示例——篮球站位分析系统 157
7.6.3 算法性能实验及结果分析 158
参考文献 160
第8章 综合特征检索 162
8.1 不同特征的特点 162
8.1.1 不同特征的自身特点 162
8.1.2 不同特征的相对特点 164
8.2 综合特征 164
8.2.1 特征的综合使用 164
8.2.2 特征归一化 165
8.3 结合颜色和纹理的检索 167
8.3.1 颜色的空间布局 167
8.3.2 综合利用颜色和纹理特征进行检索 168
8.4 结合颜色和形状的检索 169
8.4.1 方法介绍 169
8.4.2 试验结果 170
8.5 结合纹理和形状的检索 171
8.5.1 边缘点数直方图 171
8.5.2 边缘直方图描述符 172
8.5.3 使用纹理和形状的组合测度 174
8.6 结合空间关系的检索 175
参考文献 178
9.1.1 系统模块和功能 180
第9章 图象检索实验平台和系统 180
9.1 基于特征的图象查询和检索系统 180
9.1.2 系统查询实验结果 182
9.2 基于特征的算法试验平台 184
9.2.1 设计原则和功能要求 184
9.2.2 平台主要模块 185
9.2.3 平台有特色的检索功能 188
9.3 基于服务器和客户端的网上图象查询系统 191
9.3.1 系统设计 191
9.3.2 系统流程和分析 193
9.3.3 系统界面 195
9.4 WWW上图象浏览检索系统 196
9.4.1 系统组成及功能 196
9.4.2 系统实现 197
9.4.3 系统用户界面特点 198
参考文献 199
第3篇 基于内容的视频检索 203
第10章 视频数据库模型和管理 203
10.1 视频和视频数据库特点 203
10.2 数据模型 205
10.2.1 实体-联系模型 205
10.2.2 语义对象模型 206
10.3 视频数据模型 207
10.3.1 时间线模型 207
10.3.2 时间层次模型 209
10.3.3 代数模型 210
10.3.4 视频对象数据模型 211
10.4 数据库结构和模型 212
10.4.1 数据库结构 212
10.4.2 数据库模型 212
10.5 对视频库的管理和检索 214
10.5.1 视频数据库管理 214
10.5.2 视频库检索的一种结构化框架 215
10.5.3 关于视频库检索的讨论 217
参考文献 218
第11章 镜头检测和表达 221
11.1 视频序列的时域分割——镜头检测 221
11.2 切变检测 223
11.2.1 基于全局特征的变化检测 224
11.2.2 基于局部特征的变化检测 227
11.2.3 根据变化和不相似性确定切变 228
11.2.4 基于双重窗口的切变检测算法 230
11.3 渐变检测 234
11.3.1 渐变类型和检测次序 234
11.3.2 淡入淡出和叠化的检测 237
11.3.3 擦除和糙化的检测 239
11.3.4 基于模型的淡入淡出和叠化检测 241
11.4 不同镜头检测算法的性能比较和讨论 245
11.4.1 性能比较测度 245
11.4.2 对检测方法的讨论 246
11.5 镜头关键帧 247
11.5.1 关键帧 247
11.5.2 一种简单有效的关键帧提取算法 248
参考文献 251
第12章 镜头聚类和镜头集合描述 253
12.1 镜头聚类 253
12.1.1 镜头集合体 253
12.1.2 不随视频类型变化的镜头聚类方法 255
12.1.3 针对特定视频类型的镜头聚类方法 256
12.2 场景转换图 259
12.3 逻辑故事单元 261
12.3.1 情节和逻辑故事单元 261
12.3.2 确定逻辑故事单元的边界 262
12.4 情节代表帧的选取 263
12.4.1 基本步骤 264
12.4.2 讨论和改进 265
12.4.3 效果和情节层描述 266
参考文献 268
第13章 视频数据组织和索引 270
13.1 视频数据组织 270
13.1.1 组织概述 270
13.1.2 视频分段 272
13.1.3 组织实例 272
13.2 数据库索引概述 274
13.3 基本的数据库索引方法 275
13.3.1 Hash索引 275
13.3.2 B-树索引和B+-树索引 276
13.3.3 R-树索引 277
13.4.1 场景目标运动特征 278
13.3.4 借助三角不等式的索引 278
13.4基于视觉特征的索引 278
13.4.2 摄象机运动特征 281
13.4.3 元数据特征 281
13.5基于语义特征的索引和注释 281
13.5.1 语义特征和摘要 281
13.5.2 领域知识 282
13.5.3 视频注释 283
参考文献 285
第14章 基于运动特征的视频检索 287
14.1 运动轨迹 287
14.1.1 运动轨迹检测 287
14.1.2 运动轨迹描述符 288
14.2 运动特征的提取和描述 290
14.2.1 短时运动特征和描述 290
14.2.2 全局摄象机运动模型 291
14.2.3 局部运动向量场 293
14.2.4 运动活力描述符 294
14.3 基于双线性模型的全局运动向量检测 296
14.4 局部运动向量检测和视频目标分割 297
14.4.1 计算局部运动向量场的Horn-Schunck算法 297
14.4.2 带全局运动补偿的改进Horn-Schunck算法 299
14.4.3 局部运动模型和视频目标分割 300
14.5 基于运动特征的视频检索 301
14.5.1 两类检索方案 301
14.5.2 基于全局运动特征的检索方案 302
14.5.3 基于局部运动特征的检索方案 305
参考文献 308
第15章 视频节目查询应用 311
15.1 视频查询 311
15.1.1 查询层次及特征 311
15.1.2 查询工具 312
15.1.3 查询语言 314
15.2 视频描述 314
15.2.1 基于手工标记的文字描述 315
15.2.2 基于自动提取语义的内容描述 315
15.3.1 视频摘要 317
15.3 视频节目摘要 317
15.3.2 家庭录象摘要 319
15.3.3 新闻摘要示例 320
15.4 相似测度和评价 322
15.4.1 对称的相似测度 322
15.4.2 非对称的相似测度 324
15.4.3 检索效果和效率 325
15.5 各种视频节目的查询检索特点 326
15.5.1 基于应用生成的模型 327
15.5.2 基于领域知识的索引 328
15.5.3 典型的使用群体及他们的查询要求 331
参考文献 333
16.1 界面功能和布局 337
16.1.1 界面功能 337
第16章 用户界面和浏览显示 337
16.1.2 界面布局示例 338
16.2 视频片段浏览和显示 340
16.2.1 可视化关键帧 340
16.2.2 可视化视频片段 341
16.2.3 可视化视频结构 343
16.2.4 基于场景的显示 344
16.3 运动边缘层叠图 346
16.3.1 算法流程 347
16.3.2 全局运动估计 347
16.3.3 提取和叠加运动边缘 352
参考文献 355
17.1 压缩域检索的特点和方法分类 359
17.1.1 压缩域检索的特点 359
第4篇 热点和趋势 359
第17章 压缩域检索 359
17.1.2 压缩域检索方法分类 360
17.2 对变换域压缩图象的检索 361
17.2.1 对离散博里叶变换图象的检索 362
17.2.2 对离散余弦变换图象的检索 362
17.2.3 对小波变换图象的检索 363
17.2.4 对小波域子带编码图象的检索 365
17.3 对空域压缩图象的检索 366
17.3.1 对向量量化图象的检索 366
17.3.2 对分形编码图象的检索 367
17.3.3 对预测编码图象的检索 367
17.4.1 压缩域的切变检测 369
17.4 压缩域的视频检索 369
17.4.2 压缩域的渐变检测 371
参考文献 372
第18章 网上搜索引擎和分类检索 376
18.1 网上图象搜索引擎 376
18.1.1 搜索引擎的分类 377
18.1.2 基于“巡查员”的搜索引擎的工作原理 377
18.1.3 图象搜索引擎框架和模块 378
18.2 图片分类和筛选 379
18.2.1 图片分类 379
18.2.2 图片筛选 380
18.3.1 图片预筛选 382
18.3 网上GIF格式图片的筛选 382
18.3.2 基于数据量比例的筛选算法 383
18.3.3 基于颜色统计的筛选算法 386
18.3.4 两种筛选算法的结合使用 387
18.4 图象分类 388
18.4.1 景近特征直线分类算法 388
18.4.2 基于关联规则的图象分类 389
18.5 基于特征元素和关联规则的图象分类算法 392
18.5.1 特征元素的提取 392
18.5.2 关联规则的挖掘算法 395
18.5.3 分类实验结果比较 396
18.6 基于特征元素的图象检索 397
参考文献 399
19.1.1 语义表达和索引模型 401
第19章基于语义的检索 401
19.1 语义模型 401
19.1.2 图象语义层次模型 403
19.2 语义提取和描述 405
19.2.1 语义视觉模板 405
19.2.2 渐进式框架 407
19.3 图象有意义区域提取 409
19.3.1 流程框图 410
19.3.2 有意义区域提取方法 410
19.3.3 实验结果与讨论 416
19.4 多级图象语义内容描述方案 417
19.4.1 多级描述模型 417
19.4.2 目标层描述中的目标识别 419
19.4.3 目标层描述中的关系表述 422
19.5 基于目标层描述的检索系统 423
19.5.1 系统概述 423
19.5.2 基于目标的查询 425
19.5.3 基于空间关系的查询 426
参考文献 426
第20章 检索中的交互反馈 429
20.1 反馈的必要性 429
20.2 相关反馈 430
20.2.1 相关反馈特点 430
20.2.2 正例和反例 431
20.2.3 基于权重调整的相关反馈方法 432
20.3 基于目标的自适应反馈 434
20.3.1 自适应反馈 435
20.3.2 无记忆反馈 436
20.3.3 有记忆反馈 437
20.4 关联反馈 438
20.4.1 背景基础 438
20.4.2 关联反馈 439
参考文献 441
第21章 检索性能评价 444
21.1 相似性测度 444
21.1.1 测度公理 444
21.1.2 相似测度 445
21.1.3 测度的比较 447
21.1.4 距离函数 448
21.2.1 系统性能指标 449
21.2 系统性能评价 449
21.2.2 评价方法 452
21.2.3 系统的评价 454
21.3 评价基于内容检索的系统 456
参考文献 458
第22章 研究展望和应用前景 460
22.1 研究趋势 460
22.1.1 研究方向讨论 460
22.1.2 若干有新概念的研究思路 464
22.1.3 情感层次的检索 466
22.2 应用前景 467
22.2.1 应用领域的拓展 467
22.2.2 一些有特色的应用系统 468
参考文献 472
附录 477
附录A 国际标准MPEG-7介绍 477
A1 国际标准MPEG-7 477
A1.1 MPEG-7是什么 477
A1.2 MPEG-7 与其它MPEG标准有什么联系 478
A1.3 MPEG-7与基于内容的多媒体信息检索有什么联系 478
A2 MPEG-7概况和内容 479
A2.1 MPEG-7标准制订的方式是怎样的 479
A2.2 MPEG-7的工作进展情况如何 480
A2.3 MPEG-7主要用到哪些概念 480
A2.4 MPEG-7主要标准化哪些内容 481
A2.5 MPEG-7有哪些可能的应用和应用方式 482
A3 MPEG-7描述工具及特点 483
A3.1 MPEG-7标准分几个部分 483
A3.2 MPEG-7标准中有哪些描述工具 483
A3.3 MPEG-7中的多媒体描述方案是什么样的 484
A4 MPEG-7描述符和描述方案 485
A4.1 MPEG-7考虑哪些特征 485
A4.2 MPEG-7共有哪些描述符 486
A4.3 MPEG-7中D,DS,DDL的关系如何 487
参考文献 488
附录B 有关国际刊物,会议,网站 490
B1有关国际刊物 490
B2有关国际会议 491
B3有关网站和网页 491