1 概述 1
1.1 图像搜索与识别概述 1
1.2 图像搜索与识别技术的发展和应用 3
1.3 深度学习与图像搜索和识别 4
1.4 本书结构 6
2 深度卷积神经网络 8
2.1 概述 8
2.1.1 深度学习背景 8
2.1.2 深度卷积神经网络 9
2.2 CNN基础操作 11
2.2.1 卷积操作 11
2.2.2 池化操作 12
2.2.3 全连接层 13
2.2.4 激活层 14
2.2.5 批归一化层 14
2.2.6 小结 16
2.3 常见的CNN模型结构 16
2.3.1 网络结构超参数 17
2.3.2 单分支网络结构 19
2.3.3 多分支网络结构 24
2.3.4 小结 38
2.4 常见目标损失函数 38
2.5 本章总结 40
2.6 参考资料 40
3 图像分类 43
3.1 概述 43
3.2 单标记分类 44
3.2.1 常用数据集及评价指标 44
3.2.2 损失函数 45
3.2.3 提升分类精度的实用技巧 47
3.2.4 基于搜索的图像分类 50
3.3 细粒度图像分类 51
3.3.1 概述 51
3.3.2 基于部件对齐的细粒度分类方法 52
3.3.3 基于高阶特征池化的细粒度分类方法 55
3.3.4 小结 56
3.4 多标记图像分类 56
3.4.1 概述 56
3.4.2 baseline:一阶方法 58
3.4.3 标记关系建模 59
3.4.4 小结 60
3.5 代码实践 61
3.6 本章总结 63
3.7 参考资料 63
4 目标检测 66
4.1 概述 66
4.2 两阶段目标检测算法 68
4.2.1 候选框生成 69
4.2.2 特征抽取 71
4.2.3 训练策略 73
4.2.4 小结 76
4.3 单阶段目标检测算法 76
4.3.1 YOLO算法 76
4.3.2 SSD算法 78
4.3.3 RetinaNet算法 81
4.3.4 无锚点框检测算法 83
4.3.5 小结 87
4.4 代码实践 88
4.5 本章总结 91
4.6 参考资料 92
5 图像分割 95
5.1 概述 95
5.2 语义分割 96
5.2.1 概述 96
5.2.2 全卷积神经网络 97
5.2.3 空洞卷积 99
5.2.4 U-Net结构 100
5.2.5 条件随机场关系建模 101
5.2.6 Look Wider to See Better 103
5.2.7 Atrous Spatial Pyramid Pooling算法 104
5.2.8 Context Encoding for Semantic Segmentation 104
5.2.9 多卡同步批归一化 107
5.2.10 小结 107
5.3 实例分割 108
5.3.1 概述 108
5.3.2 FCIS 109
5.3.3 Mask R-CNN 111
5.3.4 Hybrid Task Cascade框架 113
5.3.5 小结 115
5.4 代码实践 115
5.5 本章总结 120
5.6 参考资料 120
6 特征学习 124
6.1 概述 124
6.2 基于分类识别的特征训练 126
6.2.1 Sigmoid函数 127
6.2.2 Softmax函数 128
6.2.3 Weighted Softmax函数 129
6.2.4 Large-Margin Softmax函数 130
6.2.5 ArcFace函数 132
6.2.6 小结 133
6.3 基于度量学习的特征训练 134
6.3.1 Contrastive损失函数 135
6.3.2 Triplet损失函数 137
6.3.3 三元组损失函数在行人再识别中的应用 139
6.3.4 Quadruplet损失函数 140
6.3.5 Listwise Learning 141
6.3.6 组合损失函数 142
6.3.7 小结 142
6.4 代码实践 143
6.5 本章总结 143
6.6 参考资料 144
7 向量检索 147
7.1 概述 147
7.2 局部敏感哈希算法 149
7.2.1 预处理 150
7.2.2 搜索 151
7.2.3 小结 152
7.3 乘积量化系列算法 152
7.3.1 PQ算法 153
7.3.2 IVFPQ算法 155
7.3.3 OPQ算法 156
7.3.4 小结 157
7.4 图搜索算法 157
7.4.1 NSW算法 158
7.4.2 Kgraph算法 161
7.4.3 HNSW算法 163
7.4.4 图搜索算法实验对比 165
7.4.5 小结 165
7.5 代码实践 166
7.6 本章总结 167
7.7 参考资料 168
8 图文理解 171
8.1 概述 171
8.2 图文识别 172
8.2.1 概述 172
8.2.2 数据集和评测标准 174
8.2.3 特征融合方法 176
8.2.4 小结 182
8.3 图文搜索 182
8.3.1 概述 182
8.3.2 数据集和评测标准 184
8.3.3 Dual Attention Networks 185
8.3.4 Bottom-Up Attention 187
8.3.5 图文搜索的损失函数 189
8.3.6 小结 190
8.4 代码实践 191
8.5 本章总结 194
8.6 参考资料 194
9 阿里巴巴图像搜索识别系统 197
9.1 概述 197
9.2 背景介绍 198
9.3 图像搜索架构 200
9.3.1 类目预测模块 200
9.3.2 目标检测和特征联合学习 201
9.3.3 图像索引和检索 205
9.4 实验和结果分析 207
9.5 本章总结 210
9.6 参考资料 211