第1章 绪论 1
1.1 引言 1
1.2 本书内容 5
1.3 本章小结 15
第2章 经典网络结构回顾 16
2.1 经典图像分类网络 16
2.1.1 LetNet-5 16
2.1.2 AlexNet 18
2.1.3 VGGNet 22
2.1.4 GoogLeNet 24
2.1.5 Inception V2/V3 27
2.1.6 ResNet 28
2.1.7 preResNet 31
2.1.8 WRN 32
2.1.9 随机深度网络 33
2.1.10 DenseNet 35
2.1.11 ResNeXt 36
2.1.12 SENet 39
2.1.13 MobileNet 41
2.1.14 MobileNet V2/V3 44
2.1.15 ShuffleNet 46
2.1.16 ShuffleNet V2 49
2.2 RNN、LSTM和GRU 51
第3章 基于2D卷积的动作识别 62
3.1 平均汇合 62
3.2 NetVLAD和NeXtVLAD 64
3.3 利用RNN融合各帧特征 77
3.4 利用3D卷积融合各帧特征 81
3.5 双流法 87
3.6 时序稀疏采样 95
3.7 利用iDT轨迹 104
第4章 基于3D卷积的动作识别 110
4.1 3D卷积基础网络结构 110
4.2 I3D 118
4.4 TSM 135
4.5 3D卷积 + RNN 137
4.6 ARTNet 139
4.7 Non-Local 141
4.8 SlowFast 148
4.9 3D卷积神经网络超参数设计 152
第5章 时序动作定位 159
5.1 基于滑动窗的算法 160
5.2 基于候选时序区间的算法 171
5.3 自底向上的时序动作定位算法 183
5.4 对时序结构信息建模的算法 197
5.5 逐帧预测的算法 202
5.6 单阶段算法 208
第6章 视频Embedding 219
6.1 基于视频内容的无监督 Embedding 220
6.2 Word2Vec 229
6.2.1 CBOW和Skip-Gram 229
6.2.2 分层 Softmax 234
6.2.3 负采样 239
6.3 Item2Vec 247
6.3.1 Item2Vec 基本形式 247
6.3.2 Item2Vec的改进 249
6.4 基于图的随机游走 252
6.5 结合一二阶相似度 257
6.6 基于图的邻居结点 265
6.7 基于多种信息学习视频Embedding 274
附录A 视频处理常用工具 281
参考文献 296