1 绪论 1
1.1 图像工程的发展 1
1.2 图像理解概述 6
1.2.1 图像理解 6
1.2.2 计算机视觉 7
1.2.3 其他相关学科 9
1.2.4 图像理解的应用领域 10
1.3 主要内容和安排 11
总结和复习 14
2 视感觉和视知觉 16
2.1 从感觉到知觉 16
2.2.1 视觉的时间特性 19
2.2 视觉特性 19
2.2.2 视觉的空间特性 21
2.3 形状知觉 23
2.3.1 形状的感知 23
2.3.2 轮廓 24
2.3.3 图形和背景 26
2.3.4 几何图形视错觉 30
2.4 空间知觉 34
2.4.1 非视觉性深度线索 35
2.4.2 双目深度线索 35
2.4.3 单目深度线索 38
2.5 运动知觉 40
总结和复习 42
3.1 高维图像 44
3.1.1 高维图像种类 44
3 高维图像采集 44
3.1.2 本征图像和非本征图像 45
3.2 成像变换和摄像机模型 47
3.2.1 一般摄像机模型 47
3.2.2 近似投影模式 50
3.2.3 通用成像模型 52
3.3 摄像机标定 54
3.3.1 标定程序和参数 54
3.3.2 两级标定法 57
3.4 深度图像采集 60
3.4.1 飞行时间法 60
3.4.2 结构光法 63
3.4.3 莫尔等高条纹法 64
3.4.4 深度和亮度图像同时采集 67
3.5.1 显微镜3-D成像 68
3.5 显微镜3-D分层成像 68
3.5.2 共聚焦显微镜3-D成像 70
总结和复习 72
4 3-D目标表达 75
4.1 曲线和曲面的局部特征 76
4.1.1 曲线局部特征 76
4.1.2 曲面局部特征 79
4.2 3-D表面表达 84
4.2.1 参数表达 84
4.2.2 表面朝向表达 86
4.3 等值面的构造和表达 88
4.3.1 行进立方体算法 88
4.3.2 覆盖算法 91
4.4 从并行轮廓插值3-D表面 92
4.5.1 基本表达方案 97
4.5 3-D实体表达 97
4.5.2 广义圆柱体表达 100
总结和复习 101
5 立体视觉:双目 103
5.1 立体视觉 104
5.1.1 立体成像方式 104
5.1.2 立体视觉模块 105
5.2 双目成像和视差 107
5.2.1 双目横向模式 107
5.2.2 双目横向会聚模式 110
5.2.3 双目纵向模式 111
5.3 基于区域的双目立体匹配 112
5.3.1 模板匹配 112
5.3.2 双目立体匹配 114
5.4.1 基本方法 117
5.4 基于特征的双目立体匹配 117
5.4.2 动态规划匹配 119
5.5 视差图误差检测与校正 121
总结和复习 124
6 立体视觉:多目 127
6.1 水平多目立体匹配 127
6.1.1 水平多目图像 128
6.1.2 倒距离 129
6.2 正交三目立体匹配 132
6.2.1 基本原理 132
6.2.2 基于梯度分类的正交匹配 136
6.3 多目立体匹配 140
6.3.1 任意排列三目立体匹配 140
6.4 亚像素级视差计算 142
6.3.2 正交多目立体匹配 142
总结和复习 147
7 景物恢复:多图像 149
7.1 单目景物恢复 149
7.2 光度立体学 151
7.2.1 景物亮度和图像亮度 151
7.2.2 表面反射特性和亮度 154
7.2.3 目标表面朝向 156
7.2.4 反射图和亮度约束方程 157
7.2.5 光度立体学求解 159
7.3 从运动求取结构 162
7.3.1 光流和运动场 162
7.3.2 光流方程求解 164
7.3.3 光流与表面取向 170
总结和复习 172
8 景物恢复:单图像 174
8.1 从阴影恢复形状 174
8.1.1 阴影与形状 174
8.1.2 利用单目图像求解照度方程 178
8.2 纹理与表面朝向 183
8.2.1 单目成像和畸变 183
8.2.2 由纹理变化恢复朝向 185
8.2.3 线段纹理消失点的确定 192
8.3 由焦距确定深度 194
8.4 根据三点透视估计位姿 196
总结和复习 198
9 知识和表达 201
9.1 知识分类和表达 202
9.2.1 模型 203
9.2 场景知识 203
9.2.2 属性超图 205
9.2.3 基于知识的建模 206
9.3 过程知识 208
9.4 知识表达基础 210
9.4.1 对知识表达的要求 210
9.4.2 知识表达类型 211
9.4.3 图像理解系统中的知识模块 212
9.4.4 图像理解中的知识表达 213
9.5 逻辑系统 215
9.5.1 谓词演算规则 215
9.5.2 利用定理证明来推理 218
9.6 语义网络 221
9.7 产生式系统 224
总结和复习 227
10 广义匹配 229
10.1 匹配基础 230
10.1.1 匹配策略和类别 230
10.1.2 匹配和配准 231
10.2 目标匹配 232
10.2.1 匹配的度量 233
10.2.2 字符串匹配 235
10.2.3 惯量等效椭圆匹配 235
10.3 动态模式匹配 236
10.4 关系匹配 239
10.5 图同构 243
10.5.1 图论简介 243
10.5.2 图同构和匹配 245
10.6 线条图标记 247
总结和复习 251
11 图像模式识别 254
11.1 模式和分类 254
11.2 统计模式识别 258
11.2.1 最小距离分类器 258
11.2.2 最优统计分类器 260
11.3 感知机和支持向量机 264
11.3.1 感知机 264
11.3.2 支持向量机 268
11.4 结构模式识别 272
11.4.1 字符串结构识别 272
11.4.2 树结构识别 275
11.4.3 学习和推理 278
总结和复习 281
12 图像理解理论和系统 284
12.1 从感知到理解 285
12.2 图像理解理论框架 287
12.2.1 马尔视觉计算理论 287
12.2.2 对马尔理论框架的改进 293
12.2.3 关于马尔重建理论的讨论 294
12.2.4 新理论框架的研究 296
12.3 图像理解系统模型 298
12.3.1 系统模型结构 298
12.3.2 多层次串行结构 299
12.3.3 以知识库为中心的辐射结构 300
12.3.4 以知识库为根的树结构 301
12.3.5 多模块交叉配合结构 302
12.4.1 VISIONS系统 303
12.4 具体系统分析 303
12.4.2 ACRONYM系统 304
12.4.3 KB Vision系统 306
12.5 典型系统比较 306
12.6 讨论和展望 308
总结和复习 312
附录A 多传感器图像信息融合 315
A.1 信息融合概述 315
A.1.1 多信息融合 316
A.1.2 传感器模型 318
A.2 图像融合 320
A.2.1 图像融合的主要步骤 320
A.2.2 图像融合的三个层次 322
A.2.3 图像融合效果评价 323
A.2.4 像素级融合示例 327
A.3 像素级融合方法 329
A.3.1 基本融合方法 329
A.3.2 融合方法的结合 331
A.3.3 小波融合时的最佳分解层数 334
A.4 特征级和决策级融合方法 336
A.4.1 贝叶斯法 336
A.4.2 证据推理法 337
A.4.3 粗糙集理论法 340
附录B 人脸和表情识别 344
B.1 生物特征识别 344
B.2 人脸检测定位 347
B.2.1 人脸检测定位的基本方法 347
B.2.2 基于Hausdorff距离的人脸检测定位 348
B.3.1 眼睛几何模型及确定 352
B.3 脸部器官提取和跟踪 352
B.3.2 眨眼过程中的眼睛轮廓跟踪 354
B.4 表情识别 356
B.4.1 表情识别和步骤 356
B.4.2 表情特征提取 357
B.4.3 基于Gabor变换的表情特征提取 360
B.4.4 表情分类 362
B.4.5 基于高阶奇异值分解的表情分类 365
B.5 人脸识别 369
B.5.1 边缘本征矢量加权的Hausdorff距离 369
B.5.2 非特定表情人脸识别 371
附录C 基于内容的图像和视频检索 372
C.1 基于视觉特征的图像检索 372
C.1.1 颜色匹配 373
C.1.2 纹理匹配 375
C.1.3 形状匹配 376
C.2 基于运动特征的视频检索 377
C.2.1 全局运动特征匹配 378
C.2.2 局部运动特征匹配 379
C.3 基于区域的AdaBoost检索 381
C.4 视频节目分析和检索 383
C.4.1 新闻视频结构化 383
C.4.2 体育比赛视频排序 387
C.4.3 家庭录像视频组织 391
C.5 语义分类检索 396
C.5.1 基于视觉关键词的图像分类 397
C.5.2 高层语义与气氛 399
部分习题解答 402
参考文献 427