目录
第1章 绪论 1
1.1 引言 1
1.2 视频行为分析 1
1.3 视频情感计算 3
第2章 光流计算 4
2.1 概述 4
2.2 光流数据集 6
2.2.1 Yosemite数据集 6
2.2.2 Middlebury数据集 6
2.2.3 Sintel数据集.6
2.2.4 KITTI数据集 8
2.2.5 FlyingChairs数据集 8
2.2.6 FlyingThings3D数据集 9
2.2.7 Monkaa数据集 10
2.2.8 Driving数据集 10
2.3 光流计算性能指标 11
2.4 光流计算挑战 12
2.5 传统光流计算方法 12
2.5.1 基于梯度的光流计算方法 12
2.5.2 基于匹配的光流计算方法 14
2.6 基于深度学习的光流计算方法 16
2.6.1 编码器-译码器结构 16
2.6.2 基于有监督学习的光流计算方法 16
2.6.3 基于无监督学习的光流计算方法 26
2.7 光流计算方法性能对比分析 29
2.8 光流的应用 33
第3章 视频行为识别 36
3.1 概述 36
3.2 视频行为识别数据集 37
3.2.1 KTH数据集 38
3.2.2 Weizmann数据集 39
3.2.3 IXMAS数据集 39
3.2.4 UIUC数据集 39
3.2.5 Hollywood2数据集 39
3.2.6 YouTube数据集 40
3.2.7 Olympic Sports数据集 40
3.2.8 TV Human Interaction数据集 40
3.2.9 HMDB51数据集 41
3.2.10 UCF50数据集 41
3.2.11 UCF101数据集 42
3.2.12 Sports-1M数据集 42
3.2.13 THUMOS数据集 43
3.2.14 ActivityNet数据集 43
3.2.15 ACT数据集 43
3.2.16 Charades数据集 44
3.2.17 YouTube-8M数据集 44
3.2.18 20BN-something-something数据集 45
3.2.19 FCVID数据集 45
3.2.20 Kinetics数据集 45
3.3 视频行为识别性能指标 46
3.4 基于特征设计的行为识别方法 47
3.4.1 局部特征描述 48
3.4.2 特征向量编码 56
3.4.3 行为类别预测 60
3.5 基于深度学习的行为识别方法 61
3.5.1 有监督视频表示学习 62
3.5.2 无监督视频表示学习 72
3.6 视频行为识别方法性能对比分析 81
第4章 时域视频行为检测 83
4.1 概述 83
4.2 时域视频行为检测数据集 84
4.2.1 Coffee-and-Cigarettes数据集85
4.2.2 DLSBP数据集 85
4.2.3 MSR-II数据集 86
4.2.4 GTEA数据集 86
4.2.5 KSCGR数据集 86
4.2.6 MPII-Cooking数据集 88
4.2.7 50Salads数据集 89
4.2.8 THUMOS数据集 90
4.2.9 ActivityNet数据集 91
4.2.10 MPII-Cooking2数据集 93
4.2.11 MultiTHUMOS数据集 94
4.2.12 MEXaction2数据集 95
4.2.13 Charades数据集 96
4.2.14 MERL Shopping数据集 97
4.2.15 TVSeries数据集 98
4.2.16 HACS数据集 99
4.3 时域视频行为检测性能指标 100
4.3.1 精确率 101
4.3.2 召回率 101
4.3.3 平均召回率 101
4.3.4 曲线下面积 101
4.3.5 平均精确率 102
4.3.6 终得分 102
4.4 时域视频行为检测方法 102
4.4.1 基于滑动窗口的方法 102
4.4.2 基于分段检测的方法 107
4.4.3 基于时域提案的方法 113
4.4.4 基于端对端的方法 126
4.5 时域视频行为检测方法性能对比分析 131
第5章 时空域视频行为检测 133
5.1 概述 133
5.2 时空域视频行为检测数据集 134
5.2.1 UCF-Sports数据集 134
5.2.2 MSR-II数据集 135
5.2.3 UCF101数据集 135
5.2.4 LIRIS-HARL数据集 136
5.2.5 J-HMDB数据集 137
5.2.6 Hollywood2Tubes数据集 138
5.2.7 DALY数据集 139
5.2.8 AVA数据集 140
5.3 时空域视频行为检测性能指标 141
5.3.1 准确率 141
5.3.2 接收者操作特性曲线 141
5.3.3 平均最佳重叠度 142
5.4 传统时空域视频行为检测方法 142
5.4.1 基于判别单元的方法 143
5.4.2 基于密集轨迹的方法 145
5.4.3 基于可变部件的方法 147
5.4.4 基于层级分割的方法 149
5.4.5 基于超像素体的方法 151
5.5 基于深度学习的时空域视频行为检测方法 154
5.5.1 基于分段检测的方法 154
5.5.2 基于管提案的方法 171
5.6 时空域视频行为检测方法性能对比分析 178
第6章 视频情感计算 181
6.1 概述 181
6.2 心理学情感模型 182
6.3 视频情感计算数据集 184
6.3.1 DEAP数据集 184
6.3.2 VideoEmotion数据集 184
6.3.3 LIRIS-ACCEDE数据集 185
6.3.4 EEV数据集 186
6.4 视频情感计算性能指标 186
6.5 基于特征设计的视频情感计算方法 187
6.5.1 视觉特征提取 187
6.5.2 音频特征提取 192
6.5.3 情感模型学习 195
6.6 基于深度学习的视频情感计算方法 196
6.6.1 增强型多模深度玻尔兹曼机 196
6.6.2 多模深度回归贝叶斯网络 199
6.6.3 自适应融合循环网络 201
6.7 视频情感计算方法性能对比分析 203
结束语 206
参考文献 208
彩图