摘要 | 第5-6页 |
Abstract | 第6-7页 |
第1章 绪论 | 第10-15页 |
1.1 基本问题描述 | 第10-13页 |
1.2 本文贡献 | 第13-15页 |
第2章 背景介绍 | 第15-34页 |
2.1 基本性质和标记定义 | 第15-18页 |
2.1.1 计算复杂度和收敛速度 | 第15-16页 |
2.1.2 标记定义 | 第16-18页 |
2.2 相关工作 | 第18-34页 |
2.2.1 误差界和Kurdyka-Lojasiewicz性质 | 第18-21页 |
2.2.2 随机梯度下降法和自适应算法简介 | 第21-28页 |
2.2.3 非凸优化算法简介 | 第28-31页 |
2.2.4 方差减小的随机一阶算法 | 第31-34页 |
第3章 基于迭代阈值收缩的非凸矩阵秩最小化算法 | 第34-54页 |
3.1 矩阵秩最小化问题和非凸规范化项 | 第34-40页 |
3.2 重加权的非凸奇异值规范化项收敛结果分析 | 第40-43页 |
3.3 多个矩阵的秩最小化问题 | 第43-45页 |
3.4 实际实现中的问题和解决方案 | 第45-46页 |
3.5 矩阵补全问题中的算法验证 | 第46-54页 |
3.5.1 人造数据集 | 第46-49页 |
3.5.2 图像数据集 | 第49-52页 |
3.5.3 多个域的推荐问题 | 第52-54页 |
第4章 SADAGRAD:强自适应的随机梯度算法 | 第54-70页 |
4.1 二阶增长条件下的强自适应的随机次梯度算法 | 第54-58页 |
4.2 SADAGRAD算法基于近邻算法的变种 | 第58-60页 |
4.3 实际应用中的SADAGRAD算法变种 | 第60-61页 |
4.4 SADAGRAD算法在满足局部误差界假设下的扩展 | 第61-63页 |
4.5 实验验证 | 第63-70页 |
第5章 非凸优化中统一的阶段化学习方法框架 | 第70-85页 |
5.1 阶段化优化算法框架 | 第72-76页 |
5.2 具体的阶段化优化算法 | 第76-80页 |
5.2.1 阶段化的随机梯度下降法 | 第76-78页 |
5.2.2 阶段化的动量随机梯度法 | 第78-79页 |
5.2.3 阶段化的自适应算法 | 第79-80页 |
5.3 实验验证 | 第80-85页 |
第6章 Stagewise-Katyusha:阶段化的加速的方差减小随机梯度下降法 | 第85-94页 |
6.1 Stagewise-Katyusha算法和假设 | 第85-88页 |
6.2 收敛性分析 | 第88-94页 |
第7章 总结 | 第94-96页 |
参考文献 | 第96-105页 |
附录A 第3章证明 | 第105-115页 |
A.1 定理3.6证明 | 第105-109页 |
A.2 引理3.7证明 | 第109-111页 |
A.3 定理3.9证明 | 第111-115页 |
附录B 第4章证明 | 第115-127页 |
B.1 命题4.1证明 | 第115-118页 |
B.2 定理4.2证明 | 第118-120页 |
B.3 定理4.4证明 | 第120-124页 |
B.4 定理4.5证明 | 第124页 |
B.5 定理4.7证明 | 第124-126页 |
B.6 定理4.8证明 | 第126-127页 |
附录C 第5章证明 | 第127-135页 |
C.1 定理5.3证明 | 第127-129页 |
C.2 定理5.5证明 | 第129-130页 |
C.3 定理5.7证明 | 第130-131页 |
C.4 引理5.4证明 | 第131-132页 |
C.5 引理5.6证明 | 第132-135页 |
致谢 | 第135-136页 |
在读期间发表的学术论文与取得的研究成果 | 第136-137页 |