第1章 绪论 1
1.1 图像理解的基本概念 1
1.1.1 图像理解与图像工程 2
1.1.2 图像理解与计算机视觉 4
1.1.3 图像理解与人工智能 6
1.1.4 图像理解与认知学 9
1.2 图像理解的研究内容 11
1.2.1 场景中目标识别 12
1.2.2 场景中目标之间的关系 16
1.2.3 场景描述与理解 20
1.2.4 图像语义描述推理 22
1.3 图像理解的研究方法 25
1.3.1 判别分类方法 25
1.3.2 生成模型方法 25
1.3.3 句法语义分析方法 26
1.4 图像理解的应用 26
1.4.1 遥感图像解释 27
1.4.2 目标识别和解释 28
1.4.3 基于内容的图像和视频检索 29
参考文献 31
第2章 分类判别模型 34
2.1 引言 34
2.2 Boosting分类方法 36
2.2.1 Boosting产生与发展 36
2.2.2 Boosting基本思想 37
2.2.3 Boosting分类模型 38
2.2.4 方法总结 46
2.3 SVM分类方法 47
2.3.1 统计学习理论 47
2.3.2 SVM模型 48
2.3.3 方法总结 59
2.4 协同学与协同神经网络 60
2.4.1 协同学简介 60
2.4.2 协同模式识别方法 66
2.4.3 方法总结 78
2.5 总结 78
参考文献 79
第3章 生成模型 85
3.1 引言 85
3.1.1 图论中的无向图与有向图 86
3.1.2 图像理解中的标记问题 87
3.2 无向图模型 90
3.2.1 无向图简介 90
3.2.2 随机场模型 94
3.2.3 星群模型 125
3.2.4 小结 137
3.3 有向图模型 137
3.3.1 有向图简介 139
3.3.2 认知图模型 141
3.3.3 pLSA模型 148
3.3.4 LDA模型 153
3.3.5 小结 158
3.4 总结 160
参考文献 160
第4章 图像信息表示与特征提取 169
4.1 引言 169
4.2 图像信息表示 170
4.2.1 图像数据结构 170
4.2.2 知识表示 173
4.2.3 数据与知识的融合 173
4.3 图像特征提取 175
4.3.1 基本图像特征提取 176
4.3.2 常用图像特征提取 186
4.3.3 方法小结 208
4.4 图像特征表达 209
4.4.1 直方图表达 209
4.4.2 区域特征表达 210
4.4.3 边缘特征表达 216
4.4.4 基于包的表达 218
4.4.5 方法小结 221
4.5 图像特征评价 221
4.5.1 检测算子评价 221
4.5.2 特征描述子评价 223
4.5.3 方法小结 225
4.6 总结 225
参考文献 225
第5章 场景中的目标识别 233
5.1 引言 233
5.2 图像分割 233
5.2.1 基于SVM的图像分割 234
5.2.2 基于取样的图像分割 238
5.2.3 全互连结构的图像分割 248
5.2.4 MRF+pLSA区域分割标记 265
5.2.5 基于产生式规则的图像分割 272
5.3 目标识别 287
5.3.1 基于认知图的目标形状识别 288
5.3.2 基于协同神经网络的生物特征识别 300
5.3.3 基于Boosting的目标识别 310
5.3.4 基于SVM的目标识别 322
5.4 广义目标识别 335
5.4.1 Boosting多值分类的目标检测识别 335
5.4.2 视觉注意机制引导的协同目标识别 346
5.4.3 pLSA的视觉目标分类 352
5.4.4 pLSA下的无向图广义目标识别 354
5.5 总结 361
参考文献 362
第6章 场景中目标之间的关系 368
6.1 引言 368
6.2 与或图和解析图 368
6.3 视觉词汇 370
6.3.1 视觉词汇表达 370
6.3.2 低层图像基元 371
6.3.3 中层图基元对 373
6.3.4 高层目标部分 374
6.4 关联和结构 376
6.4.1 关联 376
6.4.2 结构 383
6.5 目标间关系的视觉应用 385
6.5.1 星群模型的部分关联分析 385
6.5.2 场景-目标关联的目标识别 390
6.6 总结 396
参考文献 396
第7章 场景描述与理解 399
7.1 引言 399
7.2 场景分类 400
7.2.1 场景分类的概念 400
7.2.2 场景分类的特点 400
7.2.3 场景的视觉感知层次 402
7.2.4 场景分类的方法 403
7.3 场景理解的视觉应用 411
7.3.1 基于Gist特征的场景全局感知分类 411
7.3.2 基于高斯统计概率模型的场景分类 424
7.3.3 图像理解的场景分析约束机制 430
7.4 总结 432
参考文献 432
第8章 场景中的句法语义 436
8.1 引言 436
8.2 句法语言 437
8.2.1 句法重用和歧义结构 437
8.2.2 语义词汇表达 440
8.2.3 WordNet词汇网 440
8.3 基于统计的句法分析 445
8.3.1 句法公式 446
8.3.2 随机句法 447
8.3.3 上下文有关随机句法 449
8.3.4 随机句法与或图 450
8.3.5 句法学习与推理 456
8.4 基于统计句法的视觉应用 464
8.4.1 人造场景解析 465
8.4.2 人体外观建模与推理 468
8.4.3 目标类别推理识别 469
8.5 总结 470
参考文献 471
第9章 图像理解开发环境 474
9.1 引言 474
9.2 图像理解环境 474
9.2.1 IUE起源 474
9.2.2 IUE类谱系 475
9.2.3 IUE任务库 475
9.2.4 IUE执行界面和接口 477
9.3 OpenCV 477
9.3.1 OpenCV起源 477
9.3.2 OpenCV类谱系 478
9.3.3 OpenCV任务库 479
9.3.4 OpenCV执行界面和接口 481
9.3.5 OpenCV应用实例 481
9.4 VXL 489
9.4.1 VXL起源 489
9.4.2 VXL类谱系 490
9.4.3 VXL任务库 490
9.4.4 VXL执行界面和接口 491
9.4.5 VXL应用实例 491
9.5 总结 491
参考文献 492
第10章 图像数据集 494
10.1 引言 494
10.2 传统图像集 494
10.2.1 一般目标识别图像集 495
10.2.2 图像检索图像集 509
10.2.3 手势识别图像集 512
10.2.4 数字识别图像集 519
10.2.5 PASCAL图像集 523
10.3 融合视觉知识的图像集 525
10.3.1 图像集中的视觉知识 526
10.3.2 LabelMe图像集 527
10.3.3 LotusHill图像集 534
10.4 总结 538
参考文献 539