目 录Firstorder and Stochastic Optimization Methods for Machine Learning译者序
前言第1章 机器学习模型 1 1.1 线性回归1
1.2 逻辑回归3
1.3 广义线性模型5
1.3.1 指数分布族5
1.3.2 模型构建5
1.4 支持向量机8
1.5 正则化、Lasso回归和
岭回归11
1.6 群体风险最小化11
1.7 神经网络12
1.8 练习和注释14第2章 凸优化理论15 2.1 凸集15
2.1.1 定义和例子15
2.1.2 凸集上的投影16
2.1.3 分离定理17
2.2 凸函数20
2.2.1 定义和例子20
2.2.2 可微凸函数21
2.2.3 不可微凸函数21
2.2.4 凸函数的Lipschitz
连续性23
2.2.5 凸优化的最优性条件24
2.2.6 表示定理与核25
2.3 拉格朗日对偶26
2.3.1 拉格朗日函数与
对偶性26
2.3.2 强对偶性的证明27
2.3.3 鞍点29
2.3.4 KarushKuhnTucker
条件29
2.3.5 对偶支持向量机31
2.4 LegendreFenchel共轭对偶32
2.4.1 凸函数的闭包32
2.4.2 共轭函数33
2.5 练习和注释35第3章 确定性凸优化37 3.1 次梯度下降法37
3.1.1 一般非光滑凸问题38
3.1.2 非光滑强凸问题39
3.1.3 光滑凸问题41
3.1.4 光滑强凸问题42
3.2 镜面下降法43
3.3 加速梯度下降法46
3.4 加速梯度下降法的博弈论
解释50
3.5 非光滑问题的光滑方案52
3.6 鞍点优化的原始-对偶方法54
3.6.1 一般双线性鞍点问题57
3.6.2 光滑双线性鞍点问题57
3.6.3 光滑强凸双线性鞍点
问题58
3.6.4 线性约束问题59
3.7 乘子交替方向法61
3.8 变分不等式的镜面-邻近
方法63
3.8.1 单调变分不等式64
3.8.2 广义单调变分不等式66
3.9 加速水平法68
3.9.1 非光滑、光滑和弱光滑
问题68
3.9.2 鞍点问题76
3.10 练习和注释81第4章 随机凸优化83 4.1 随机镜面下降法83
4.1.1 一般非光滑凸函数84
4.1.2 光滑凸问题87
4.1.3 准确性证书90
4.2 随机加速梯度下降法95
4.2.1 无强凸性问题100
4.2.2 非光滑强凸问题103
4.2.3 光滑强凸问题104
4.2.4 准确性证书109
4.3 随机凹凸鞍点问题111
4.3.1 通用算法框架112
4.3.2 极小极大随机问题115
4.3.3 双线性矩阵博弈117
4.4 随机加速原始-对偶方法119
4.4.1 加速原始-对偶方法121
4.4.2 随机双线性鞍点问题129
4.5 随机加速镜面-邻近方法140
4.5.1 算法框架141
4.5.2 收敛性分析142
4.6 随机块镜面下降方法154
4.6.1 非光滑凸优化155
4.6.2 凸复合优化164
4.7 练习和注释171第5章 凸有限和及分布式
优化173 5.1 随机原始-对偶梯度法173
5.1.1 多人共轭空间博弈的
重新表述176
5.1.2 梯度计算的随机化177
5.1.3 强凸问题的收敛性179
5.1.4 随机化方法的复杂度
下界189
5.1.5 对非强凸性问题的
推广193
5.2 随机梯度外插法197
5.2.1 梯度外插方法198
5.2.2 确定性有限和问题204
5.2.3 随机有限和问题213
5.2.4 分布式实现218
5.3 降低方差的镜面下降法220
5.3.1 无强凸性的光滑问题223
5.3.2 光滑和强凸问题225
5.4 降低方差加速梯度下降法226
5.4.1 无强凸性的光滑问题229
5.4.2 光滑和强凸问题233
5.4.3 满足错误界条件的
问题238
5.5 练习和注释240第6章 非凸优化241 6.1 无约束非凸随机优化法241
6.1.1 随机一阶方法243
6.1.2 随机零阶方法251
6.2 非凸随机复合优化法260
6.2.1 邻近映射的一些性质261
6.2.2 非凸镜面下降法263
6.2.3 非凸随机镜面下降法264
6.2.4 复合问题的随机零阶
方法275
6.3 非凸随机块镜面下降法279
6.4 非凸随机加速梯度下降法286
6.4.1 非凸加速梯度下降法287
6.4.2 随机加速梯度下降法298
6.5 非凸降低方差镜面下降法310
6.5.1 确定性问题的基本
求解方案310
6.5.2 随机优化问题的推广313
6.6 随机化加速邻近点方法316
6.6.1 非凸有限和问题317
6.6.2 非凸多块问题327
6.7 练习和注释337第7章 无投影方法 338 7.1 条件梯度法338
7.1.1 经典条件梯度