第1章 引言 1
1.1 应用背景 1
1.1.1 视频标注与检索 1
1.1.2 智能视频监控 2
1.1.3 人机交互 2
1.2 研究的难点 3
1.3 研究内容和结构安排 5
1.3.1 研究内容及工作进展 5
1.3.2 结构安排 6
第2章 人体动作识别的相关综述 8
2.1 视频图像表示 9
2.1.1 全局表示 10
2.1.2 局部表示 12
2.2 人体动作建模与分类 20
2.2.1 维数约简 20
2.2.2 直接分类 20
2.2.3 状态空间模型方法 22
2.3 方法的特点 25
2.4 本章小结 26
第3章 杂乱背景和摄像机移动下的时空兴趣点检测方法 28
3.1 引言 28
3.2 非线性各向异性扩散滤波器及分析 31
3.2.1 Perona-Malik扩散模型 33
3.2.2 非线性各向异性扩散滤波 34
3.3 杂乱背景和摄像机移动下的时空兴趣点检测 35
3.3.1 基于非线性各向异性扩散滤波的时空兴趣点检测算法 36
3.3.2 计算方法 39
3.4 实验与分析 40
3.4.1 实验数据集和实验设置 41
3.4.2 摄像机轻微晃动下的时空兴趣点检测方法比较 41
3.4.3 杂乱背景和摄像机快速运动下的时空兴趣点检测方法比较 43
3.4.4 计算复杂度分析 45
3.5 本章小结 46
第4章 改进的视频抖动自适应的时空兴趣点检测方法 48
4.1 引言 48
4.2 视频抖动检测算法 48
4.2.1 视频画面抖动检测算法 50
4.2.2 金字塔Lucas-Kanade稀疏光流特征 52
4.2.3 稀疏光流的前-后向误差估计 53
4.2.4 基于光流运动熵的视频画面抖动检测算法 54
4.3 基于视频抖动检测算法的混合时空兴趣点检测 55
4.4 实验与分析 56
4.4.1 实验数据集和实验设置 56
4.4.2 视频抖动检测验证 56
4.4.3 静态背景下的时空兴趣点检测方法比较 57
4.4.4 摄像机轻微晃动下的时空兴趣点检测方法比较 58
4.4.5 杂乱背景和摄像机快速运动下的时空兴趣点检测方法比较 59
4.5 本章小结 61
第5章 基于稀疏编码的时空金字塔匹配的人体动作识别 62
5.1 引言 62
5.2 稀疏编码 63
5.2.1 数学描述 64
5.2.2 稀疏编码算法 64
5.3 基于BoF的人体动作识别框架 66
5.4 基于稀疏编码的人体动作识别方法 67
5.4.1 特征检测和表示 68
5.4.2 基于稀疏编码的码书学习 69
5.4.3 基于max pooling的人体动作描述子 70
5.5 基于稀疏编码的时空金字塔匹配 71
5.5.1 时空金字塔匹配 71
5.5.2 基于max pooling的时空金字塔匹配 72
5.6 实验与分析 73
5.6.1 实验设置 74
5.6.2 KTH数据集上的实验 75
5.6.3 YouTube数据集上的实验 78
5.7 本章小结 79
第6章 视角无关的人体动作识别的研究 81
6.1 引言 81
6.2 视角无关的人体动作识别的研究现状 82
6.3 线性动态系统 84
6.3.1 模型参数估计 85
6.3.2 距离度量 86
6.4 基于线性动态系统的视角无关的人体动作识别 88
6.4.1 基于LDSs模型参数的局部描述子 89
6.4.2 模型参数空间中的码书学习 90
6.4.3 动作描述子计算 91
6.5 实验与分析 91
6.5.1 数据集与实验设置 91
6.5.2 单/多目识别 92
6.5.3 交叉视角的识别 95
6.5.4 基于BoF的视角无关的动作识别方法比较 96
6.6 本章小结 98
第7章 复杂场景下鲁棒的人体动作分类方法 99
7.1 引言 99
7.2 超完备基的图像稀疏表示 100
7.3 基于稀疏表示的人体动作分类算法 100
7.3.1 人体动作的稀疏表示 101
7.3.2 基于l1最小化的稀疏表示求解方法 101
7.3.3 l1最小化优化算法 102
7.3.4 分类方法 102
7.4 在噪声、干扰、遮挡情况下的人体动作分类算法 103
7.5 实验与分析 104
7.5.1 基于l1与l2最小化算法的比较 105
7.5.2 分类方法SR与SVM、K-NN的比较 106
7.5.3 鲁棒性测试 107
7.6 本章小结 110
参考文献 111
名词索引 126