第1章 绪论 1
1.1 “视听感知网”不期而至 1
1.2 监控视频的智能分析 4
1.3 监控视频的高效编码 7
1.4 基于AVS的监控视频分析识别 10
1.5 关于本书 14
参考文献 15
第2章 视频编码 16
2.1 图像和视频的数字化 16
2.2 数字视频中的冗余 17
2.3 数字视频编码的主要方法 19
2.3.1 预测 19
2.3.2 变换 21
2.3.3 量化 22
2.3.4 扫描 22
2.3.5 熵编码 23
2.3.6 视频编码工具发展历史 24
2.4 数字视频编码标准 26
2.4.1 混合编码框架 26
2.4.2 主要视频编码标准组织 27
2.4.3 第一代视频编码标准 28
2.4.4 第二代视频编码标准 30
2.4.5 第三代视频编码国际标准HEVC/H.2 65 33
2.4.6 新一代视频编码国家标准AVS-2 36
2.5 视频图像质量评价 37
2.5.1 客观质量评价 38
2.5.2 主观质量评价 38
2.5.3 基于结构失真的质量评测准则 39
参考文献 39
第3章 背景建模 45
3.1 背景建模方法概述 45
3.1.1 常用背景建模方法 45
3.1.2 视频编码对背景建模的特殊需求 55
3.1.3 复杂场景给背景建模带来的问题 56
3.2 低复杂度背景建模方法 57
3.2.1 分段加权滑动平均背景模型 58
3.2.2 重用矢量整点滑动平均背景模型 60
3.2.3 实验结果 62
3.3 选择式特征背景减除方法 63
3.3.1 背景减除概述 63
3.3.2 块级选择式特征背景减除方法 68
3.3.3 实验分析 71
3.4 像素级选择式特征背景减除方法 74
3.4.1 方法框架 74
3.4.2 训练阶段 75
3.4.3 检测阶段 82
3.4.4 实验分析 88
参考文献 92
第4章 监控视频编码 96
4.1 模型编码方法回顾 96
4.1.1 模型编码方法 96
4.1.2 基于对象的视频编码方法与标准 103
4.1.3 感兴趣区域编码 105
4.2 基于背景建模的监控视频编码 107
4.2.1 监控视频的新冗余 107
4.2.2 基于长期关键帧的编码方法 109
4.2.3 基于原始图像建模背景的编码方法 110
4.3 背景差分预测编码 115
4.3.1 块匹配运动补偿效率分析 115
4.3.2 背景差分编码算法及其效率分析 117
4.3.3 基于背景差分预测的宏块类型自适应运动补偿 122
4.3.4 自适应背景差分编码方法 124
4.4 基于背景预测的帧间层级编码优化 127
4.4.1 帧间层级编码分析 127
4.4.2 基于背景预测的层级编码优化算法 132
4.4.3 四叉树编码单元分类加速算法 136
44.4 实验与分析 141
4.5 面向监控视频的AVS标准 144
4.5.1 第一阶段(2007—2009) : AVS-S 145
4.5.2 第二阶段(2010—2012) : AVS监控档次与IEEE 1857 147
4.5.3 第三阶段(2013—2014):适合监控视频的AVS2 151
参考文献 154
第5章 监控视频编转码优化 164
5.1 基于动态纹理模型的视频编解码技术 164
5.1.1 引言 164
5.1.2 方法比较 165
5.1.3 改进的动态纹理模型求解算法 167
5.1.4 基于动态纹理合成的虚拟帧算法 169
5.1.5 基于动态纹理合成的帧级错误掩盖算法 171
5.1.6 实验与性能分析 174
5.1.7 小结 184
5.2 基于彩色恰可察觉失真模型的残差自适应滤波 185
5.2.1 引言 185
5.2.2 方法比较 186
5.2.3 改进的彩色JND模型建模算法 189
5.2.4 基于JND的自适应残差滤波算法 195
5.2.5 实验与性能分析 196
5.2.6 小结 204
5.3 降码率转码中的码率控制算法 204
5.3.1 引言 204
5.3.2 基于条件熵的转码码率控制模型 206
5.3.3 基于复杂度和的P帧宏块层码率控制算法 208
5.3.4 基于复杂度和的1帧宏块层码率控制算法 213
5.3.5 实验结果及讨论 219
5.3.6 小结 229
5.4 降分辨率转码运动矢量合成算法 229
5.4.1 引言 229
5.4.2 基于条件熵的转码运动矢量合成模型 231
5.4.3 基于精确度的降空间分辨率转码运动矢量合成算法 232
5.4.4 基于精确度的降时间分辨率转码运动矢量合成算法 237
5.4.5 实验结果及讨论 241
5.4.6 小结 248
参考文献 249
第6章 视觉显著性分析 251
6.1 视觉显著性分析的基本概念 251
6.2 视觉显著性分析的主要方法 256
6.2.1 自底向上的视频显著模型 256
6.2.2 自顶向下的视频显著模型 260
6.2.3 模型比较与分析 262
6.3 视觉显著模型性能评价 263
6.3.1 视觉显著模型评价数据集 264
6.3.2 视觉显著模型评价指标 269
6.4 基于学习的视觉显著性分析 272
6.4.1 基于概率多任务学习的视觉显著性分析 273
6.4.2 基于配对排序学习的视觉显著性分析 275
6.4.3 基于视觉显著性分析的对象提取 280
参考文献 281
第7章 对象检测 286
7.1 概述 286
7.1.1 对象检测的发展历史 287
7.1.2 对象检测的技术挑战 292
7.2 常见对象检测方法 296
7.2.1 标注与预处理 297
7.2.2 特征表示 299
7.2.3 分类器的设计与学习 303
7.2.4 对象定位 307
7.2.5 常用数据集 308
7.2.6 评价标准 309
7.3 简单场景下的行人检测 310
7.3.1 基于颜色信息的行人检测 310
7.3.2 融合全局模板和部件模板的行人检测 314
7.4 场景与视角自适应的行人检测 323
7.4.1 基本思路 323
7.4.2 特征偏移方法 324
7.4.3 协同变量Boost检测器设计与视角适应算法 325
7.4.4 实验评测 327
参考文献 330
第8章 对象跟踪 336
8.1 对象跟踪概述 336
8.1.1 对象跟踪的技术挑战 336
8.1.2 对象跟踪问题的分类 338
8.1.3 跟踪技术分类 340
8.1.4 对象的表示方法 343
8.1.5 对象跟踪的特征选择 344
8.2 基于检测关联的在线多特征跟踪 346
8.2.1 多外观特征融合 347
8.2.2 联合检测与跟踪 349
8.2.3 在线更新算法框架与实验验证 350
8.3 基于多实例学习的在线多特征跟踪方法 353
8.3.1 在线多实例学习框架 354
8.3.2 弱分类器的构造 356
8.3.3 利用Boosting融合多特征 359
8.3.4 实验结果与分析 360
8.4 半监督在线对象跟踪 363
8.4.1 协变量移动和CovBoost算法 364
8.4.2 半监督CovBoost的特征选择方法 365
8.4.3 半监督在线CovBoost跟踪算法及实验验证 368
参考文献 377
第9章 行为识别 381
9.1 基于时空上下文的个人动作识别 381
9.1.1 时空兴趣点的提取与表示 382
9.1.2 时空视频词组和视频单词团体 382
9.1.3 代表性时空视频词组和视频单词团体的选取 385
9.1.4 实验与性能比较 387
9.2 基于高斯过程的多人事件识别 392
9.2.1 多人事件的层次模型 393
9.2.2 基于运动轨迹的多人事件特征表述 394
9.2.3 基于表观信息的多人事件特征 397
9.2.4 综合多种特征的多人事件识别 398
9.3 基于社会属性力的群体事件分析 402
9.3.1 社会属性力算法概述 402
9.3.2 社会力模型 403
9.3.3 社会属性力模型 405
9.3.4 实验结果及分析 408
9.4 TRECVid监控事件检测算法评测 411
9.4.1 TRECVid SED监控事件检测任务 412
9.4.2 NEC-UIUC系统介绍 415
9.4.3 CMU-IBM系统介绍 417
9.4.4 PKU-NEC系统介绍 419
参考文献 426