第1章 绪论 1
1.1 图像工程的发展 1
1.2 图像理解及相关学科 7
1.2.1 图像理解 7
1.2.2 计算机视觉 8
1.2.3 其他相关学科 9
1.2.4 图像理解的应用领域 10
1.3 图像理解理论框架 11
1.3.1 马尔视觉计算理论 12
1.3.2 对马尔理论框架的改进 17
1.3.3 关于马尔重建理论的讨论 19
1.3.4 新理论框架的研究 21
1.4 内容框架和特点 23
总结和复习 25
第1单元 采集表达 29
第2章 摄像机成像 29
2.1 视觉过程 29
2.2 摄像机成像模型 31
2.2.1 基本摄像机模型 32
2.2.2 近似投影模式 36
2.2.3 一般摄像机模型 37
2.2.4 通用成像模型 40
2.3 摄像机标定 42
2.3.1 标定程序和参数 42
2.3.2 两级标定法 44
2.4 光度学和亮度成像 47
2.4.1 光度学 47
2.4.2 亮度成像模型 50
总结和复习 51
第3章 深度信息采集 54
3.1 高维图像和成像方式 54
3.1.1 高维图像种类 54
3.1.2 本征图像和非本征图像 55
3.1.3 深度成像方式 57
3.2 双目成像模式 58
3.2.1 双目横向模式 58
3.2.2 双目会聚横向模式 60
3.2.3 双目轴向模式 62
3.3 深度图像直接采集 63
3.3.1 飞行时间法 63
3.3.2 结构光法 65
3.3.3 莫尔等高条纹法 67
3.3.4 深度和亮度图像同时采集 69
3.4 显微镜3-D分层成像 70
3.4.1 景深和焦距 70
3.4.2 显微镜3-D成像 72
3.4.3 共聚焦显微镜3-D成像 74
总结和复习 76
第4章 3-D景物表达 78
4.1 曲线和曲面的局部特征 78
4.1.1 曲线局部特征 78
4.1.2 曲面局部特征 81
4.2 3-D表面表达 84
4.2.1 参数表达 85
4.2.2 表面朝向表达 86
4.3 等值面的构造和表达 89
4.3.1 行进立方体算法 89
4.3.2 覆盖算法 91
4.4 从并行轮廓插值3-D表面 92
4.5 3-D实体表达 97
4.5.1 基本表达方案 97
4.5.2 广义圆柱体表达 99
总结和复习 100
第2单元 景物重建 105
第5章 立体视觉:双目 105
5.1 立体视觉模块 105
5.2 基于区域的双目立体匹配 107
5.2.1 模板匹配 108
5.2.2 立体匹配 110
5.3 基于特征的双目立体匹配 112
5.3.1 基本步骤 113
5.3.2 尺度不变特征变换 115
5.3.3 加速鲁棒性特征 117
5.3.4 动态规划匹配 122
5.4 视差图误差检测与校正 124
总结和复习 127
第6章 立体视觉:多目 129
6.1 水平多目立体匹配 129
6.1.1 水平多目图像 130
6.1.2 倒距离 131
6.2 正交三目立体匹配 133
6.2.1 基本原理 133
6.2.2 基于梯度分类的正交匹配 137
6.3 多目立体匹配 141
6.3.1 任意排列三目立体匹配 141
6.3.2 正交多目立体匹配 145
6.4 亚像素级视差计算 146
总结和复习 150
第7章 景物恢复:多图像 152
7.1 单目景物恢复 152
7.2 光度立体学 153
7.2.1 景物亮度和图像亮度 153
7.2.2 表面反射特性和亮度 156
7.2.3 景物表面朝向 157
7.2.4 反射图和亮度约束方程 158
7.2.5 光度立体学求解 160
7.3 从运动求取结构 163
7.3.1 光流和运动场 163
7.3.2 光流方程求解 165
7.3.3 光流与表面取向 170
7.3.4 光流与相对深度 173
总结和复习 173
第8章 景物恢复:单图像 176
8.1 从影调恢复形状 176
8.1.1 影调与形状 176
8.1.2 亮度方程求解 179
8.2 纹理与表面朝向 184
8.2.1 单目成像和畸变 184
8.2.2 由纹理变化恢复朝向 186
8.2.3 检测线段纹理消失点 192
8.3 由焦距确定深度 193
8.4 根据三点透视估计位姿 195
总结和复习 197
第3单元 场景解释 201
第9章 知识表达和推理 201
9.1 知识基础 201
9.2 场景知识 203
9.2.1 模型 203
9.2.2 属性超图 204
9.2.3 基于知识的建模 206
9.3 过程知识 207
9.4 知识表达 209
9.4.1 知识表达要求 209
9.4.2 知识表达类型 210
9.4.3 图像理解系统中的知识模块 211
9.4.4 基本知识表达方案 213
9.5 逻辑系统 214
9.5.1 谓词演算规则 214
9.5.2 利用定理证明来推理 217
9.6 语义网 220
9.7 产生式系统 223
总结和复习 225
第10章 广义匹配 227
10.1 匹配概述 227
10.1.1 匹配策略和类别 228
10.1.2 匹配和配准 229
10.1.3 匹配评价 230
10.2 目标匹配 231
10.2.1 匹配的度量 231
10.2.2 字符串匹配 233
10.2.3 惯量等效椭圆匹配 234
10.2.4 形状矩阵匹配 235
10.3 动态模式匹配 236
10.4 关系匹配 238
10.5 图同构 241
10.5.1 图论简介 242
10.5.2 图同构和匹配 244
10.6 线条图标记 246
总结和复习 250
第11章 场景分析和语义解释 252
11.1 场景理解概述 252
11.2 模糊推理 254
11.2.1 模糊集和模糊运算 255
11.2.2 模糊推理方法 256
11.3 遗传算法图像解释 258
11.3.1 遗传算法原理 259
11.3.2 语义分割和解释 260
11.4 场景目标标记 263
11.5 场景分类 266
11.5.1 词袋/特征包模型 266
11.5.2 pLSA模型 268
11.5.3 LDA模型 272
总结和复习 275
第4单元 研究示例 279
第12章 多传感器图像信息融合 279
12.1 信息融合概述 279
12.2 图像融合 282
12.2.1 图像融合的主要步骤 282
12.2.2 图像融合的三个层次 283
12.2.3 图像融合效果评价 285
12.3 像素级融合方法 288
12.3.1 基本融合方法 288
12.3.2 融合方法的结合 290
12.3.3 小波融合时的最佳分解层数 293
12.3.4 像素级融合示例 294
12.4 特征级和决策级融合方法 297
12.4.1 贝叶斯法 297
12.4.2 证据推理法 298
12.4.3 粗糙集理论法 300
总结和复习 303
第13章 基于内容的图像和视频检索 305
13.1 基于视觉特征的图像检索 305
13.1.1 颜色特征匹配 306
13.1.2 纹理特征计算 307
13.1.3 多尺度形状特征 308
13.2 基于运动特征的视频检索 309
13.2.1 全局运动特征 310
13.2.2 局部运动特征 311
13.3 视频节目分析和索引 312
13.3.1 新闻视频结构化 312
13.3.2 体育比赛视频排序 315
13.3.3 家庭录像视频组织 320
13.4 语义分类检索 324
13.4.1 基于视觉关键词的图像分类 325
13.4.2 高层语义与气氛 326
总结和复习 328
第14章 时空行为理解 331
14.1 时空技术 331
14.2 时空兴趣点 333
14.3 动态轨迹学习和分析 335
14.3.1 自动场景建模 336
14.3.2 学习路径 337
14.3.3 自动活动分析 340
14.4 动作分类和识别 341
14.4.1 动作分类 341
14.4.2 动作识别 343
14.5 活动和行为建模 346
14.5.1 动作建模 346
14.5.2 活动建模和识别 350
总结和复习 354
附录A 视觉和视知觉 356
A.1 视知觉概述 356
A.2 视觉特性 358
A.2.1 视觉的空间特性 358
A.2.2 视觉的时间特性 360
A.2.3 视觉的亮度特性 361
A.3 形状知觉 363
A.3.1 轮廓 363
A.3.2 图形和背景 365
A.3.3 几何图形错觉 368
A.4 空间知觉 371
A.4.1 非视觉性深度线索 371
A.4.2 双目深度线索 372
A.4.3 单目深度线索 374
A.5 运动知觉 376
部分习题解答 381
参考文献 385
索引 398