面向稀疏数据的GPU程序优化技术研究
摘要 | 第4-6页 |
abstract | 第6-7页 |
第1章 绪论 | 第10-18页 |
1.1 研究背景 | 第10-13页 |
1.1.1 稀疏数据与GPU程序优化 | 第10-11页 |
1.1.2 深度学习与神经网络 | 第11-13页 |
1.2 相关工作 | 第13-16页 |
1.2.1 稀疏存储格式与稀疏计算库 | 第13-15页 |
1.2.2 深度学习场景中的稀疏优化 | 第15-16页 |
1.3 本文主要工作 | 第16-18页 |
第2章 基于目标代码的GPU程序优化方法 | 第18-37页 |
2.1 面向稀疏数据的程序优化思路 | 第18-22页 |
2.1.1 立即数替换 | 第18-19页 |
2.1.2 稀疏常量优化 | 第19-20页 |
2.1.3 基于目标代码的程序优化 | 第20-22页 |
2.2 稀疏目标代码生成方法 | 第22-24页 |
2.3 稀疏目标代码优化方法 | 第24-35页 |
2.3.1 基于PTX的稀疏常量优化算法 | 第24-27页 |
2.3.2 基于cubin的稀疏常量优化算法 | 第27-35页 |
2.4 本章小结 | 第35-37页 |
第3章 面向稀疏数据的GPU程序优化框架 | 第37-53页 |
3.1 GPU程序优化性能模型 | 第37-40页 |
3.1.1 程序优化开销与收益分析 | 第37-38页 |
3.1.2 程序优化性能预测 | 第38-40页 |
3.2 GPU程序优化框架 | 第40-52页 |
3.2.1 基于图模型的GPU程序形式化描述 | 第40-46页 |
3.2.2 GPU程序静态优化 | 第46-48页 |
3.2.3 GPU程序动态优化 | 第48-52页 |
3.3 本章小结 | 第52-53页 |
第4章 实验与评价 | 第53-72页 |
4.1 深度学习场景的应用 | 第53-61页 |
4.1.1 LeNet-5网络结构 | 第53-55页 |
4.1.2 深度学习训练场景的优化 | 第55-60页 |
4.1.3 深度学习预测场景的优化 | 第60-61页 |
4.2 性能评价 | 第61-71页 |
4.2.1 实验环境说明 | 第61-62页 |
4.2.2 基于PTX目标代码的优化 | 第62-66页 |
4.2.3 基于cubin目标代码的优化 | 第66-68页 |
4.2.4 程序优化框架整体优化性能 | 第68-71页 |
4.3 本章小结 | 第71-72页 |
第5章 总结与展望 | 第72-74页 |
5.1 工作总结 | 第72-73页 |
5.2 未来展望 | 第73-74页 |
参考文献 | 第74-79页 |
作者简介及在学期间所取得的科研成果 | 第79-81页 |
致谢 | 第81页 |