申威平台上卷积神经网络库的实现与优化

摘要	第5-7页
ABSTRACT	第7-8页
第1章绪论	第16-22页
1.1 研究背景	第16-20页
1.1.1 卷积神经网络发展趋势	第16-17页
1.1.2 CNN训练平台的发展趋势	第17-19页
1.1.3 神威太湖之光超算平台	第19页
1.1.4 本文的研究动机	第19-20页
1.2 论文研究目标和主要工作	第20-21页
1.2.1 swABL-DNN在申威平台上的实现	第20页
1.2.2 swABL-DNN测试框架实现	第20-21页
1.2.3 卷积库函数优化	第21页
1.3 论文结构	第21-22页
第2章相关工作	第22-28页
2.1 高性能计算平台中的深度学习库	第22-25页
2.1.1 Intel CPU	第22-23页
2.1.2 NVIDIA GPU	第23-24页
2.1.3 FPGA	第24页
2.1.4 神威太湖之光	第24-25页
2.2 卷积算法	第25页
2.3 神威太湖之光移植与优化	第25-26页
2.3.1 深度学习研究	第25-26页
2.3.2 其他相关研究	第26页
2.4 本章小结	第26-28页
第3章 swABL-DNN库函数的设计与功能介绍	第28-48页
3.1 swABL-DNN设计目标	第28-34页
3.1.1 卷积神经网络分析	第28-29页
3.1.2 反向传播算法	第29-31页
3.1.3 库的数据结构和函数命名规则	第31-33页
3.1.4 库函数	第33-34页
3.2 库函数功能与计算分析	第34-46页
3.2.1 卷积层	第34-39页
3.2.2 池化层	第39-41页
3.2.3 归一化层库函数	第41-42页
3.2.4 激活层库函数	第42-43页
3.2.5 全连接层库函数	第43-45页
3.2.6 上采样层库函数	第45页
3.2.7 融合层库函数	第45-46页
3.2.8 总结	第46页
3.3 swABL-DNN正确性测试	第46页
3.4 本章小结	第46-48页
第4章 swABL-DNN测试分析	第48-56页
4.1 测试程序	第48页
4.2 实现细节	第48-51页
4.2.1 网络层类	第48-49页
4.2.2 模型类	第49-51页
4.3 功能性测试与模型分析	第51-53页
4.3.1 U-Net	第51-52页
4.3.2 AlexNet	第52-53页
4.4 swABL-DNN正确性测试	第53-54页
4.5 本章小结	第54-56页
第5章卷积层库函数优化	第56-74页
5.1 申威处理器	第56-58页
5.1.1 从核访存优化	第57-58页
5.1.2 核心计算优化	第58页
5.2 卷积原语	第58-60页
5.3 矩阵乘法计算卷积	第60-61页
5.4 参数受限的并行卷积算法	第61-63页
5.4.1 申威从核阵列实现矩阵乘法	第61-62页
5.4.2 卷积参数受限分析	第62-63页
5.5 无参数限制的并行卷积算法	第63-68页
5.5.1 任务划分	第63-64页
5.5.2 数据重用	第64-66页
5.5.3 软件流水	第66-67页
5.5.4 手动向量化	第67-68页
5.6 算法对比测试	第68-73页
5.6.1 申威处理器并行卷积算法对比	第68-71页
5.6.2 商用平台卷积层API对比	第71-73页
5.7 本章小结	第73-74页
第6章全文总结	第74-78页
6.1 研究工作总结	第74-75页
6.1.1 swABL-DNN的设计与功能介绍	第74页
6.1.2 测试程序与模型分析	第74-75页
6.1.3 卷积层库函数优化	第75页
6.2 本文创新点	第75页
6.3 未来工作展望	第75-78页
参考文献	第78-82页
致谢	第82-84页
在读期间发表的学术论文与取得的研究成果	第84-86页
在读期间参与的科研项目	第86页