第1章 引言 1
1.1 视频事件分析与理解的背景和意义 1
1.2 目标检测的研究现状 3
1.2.1 基于HOG/SVM的行人检测 4
1.2.2 基于可变形部件模型的行人检测 6
1.2.3 基于深度神经网络的行人检测 7
1.2.4 基于特征融合的行人检测 8
1.2.5 行人检测中的分类器 8
1.2.6 行人检测数据集 9
1.3 目标跟踪的研究现状 12
1.3.1 目标表示 13
1.3.2 统计建模 16
1.3.3 目标跟踪数据集 23
1.4 视频事件分析与理解的研究现状 25
1.4.1 视频事件中的相关术语 27
1.4.2 视频事件的特征表示 29
1.4.3 视频事件的建模方法 30
1.4.4 视频事件数据集 37
1.5 关于本书 42
第2章 视频中的目标检测算法 44
2.1 基于深度通道特征的行人检测方法 44
2.1.1 深度卷积神经网络与稀疏滤波 45
2.1.2 深度通道特征 49
2.1.3 深度通道特征的提取 52
2.1.4 基于深度通道特征的行人检测 53
2.1.5 实验结果 54
2.2 基于特征共享和联合Boosting方法的物体检测方法 59
2.2.1 基于滑动窗口和二分类器的物体检测框架 59
2.2.2 二分类Boosting方法 62
2.2.3 共享特征与多分类Boosting方法 64
2.2.4 实验结果 67
2.3 本章小结 71
第3章 视频中的目标跟踪算法 73
3.1 基于多分量可变部件模型的行人跟踪方法 73
3.1.1 行人可变部件模型及其初始化 74
3.1.2 多分量可变部件模型 78
3.1.3 基于多分量可变部件模型的跟踪算法 79
3.1.4 自顶向下与自底向上相结合的跟踪框架 81
3.1.5 实验结果 84
3.2 基于锚点标签传播的物体跟踪方法 93
3.2.1 问题描述 94
3.2.2 求解最优H 95
3.2.3 求解软标签预测矩阵A 98
3.2.4 软标签传播 99
3.2.5 基于标签传播模型的跟踪算法 100
3.2.6 实验结果 104
3.3 本章小结 120
第4章 事件时序与或图模型的学习 122
4.1 事件模型的定义 123
4.1.1 一元和二元关系 124
4.1.2 原子动作 126
4.1.3 时序与或图模型 129
4.1.4 子节点之间的时序关系 130
4.1.5 解析图 130
4.2 事件模型的学习 131
4.2.1 一元和二元关系的检测 131
4.2.2 原子动作的学习 134
4.2.3 事件模型的学习 135
4.3 实验结果 139
4.3.1 实验数据 139
4.3.2 时序与或图学习结果 140
4.3.3 所学的模型有益于场景语义的识别 140
4.4 本章小结 143
第5章 基于时序与或图模型的视频事件解析 144
5.1 时序与或图与随机上下文相关文法 144
5.2 Earley在线解析算法 147
5.3 改进的Earley解析算法 148
5.4 事件解析的定义 151
5.5 对事件的解析 153
5.6 实验 156
5.6.1 原子动作识别 156
5.6.2 事件解析 159
5.6.3 意图预测 161
5.6.4 事件补全 162
5.7 本章小结 163
第6章 基于关键原子动作和上下文信息的事件解析 165
6.1 基于关键原子动作的事件解析 166
6.1.1 原子动作权值的学习 167
6.1.2 带有原子动作权值的事件解析图 168
6.1.3 基于原子动作权值的事件可识别度 169
6.1.4 实验结果 170
6.2 基于社会角色的事件分析 173
6.2.1 相关工作 174
6.2.2 角色建模与推断 175
6.2.3 基于角色的事件识别 176
6.2.4 实验结果 176
6.3 基于群体和环境上下文的事件识别 180
6.3.1 相关工作 181
6.3.2 基于场景上下文的事件识别 182
6.3.3 基于群体上下文的事件识别 183
6.3.4 基于场景和群体上下文的事件识别 184
6.3.5 实验结果 184
6.4 本章小结 188
参考文献 189