基于OpenCL的并行卷积神经网络性能模型研究

摘要	第5-6页
ABSTRACT	第6-7页
符号对照表	第12-13页
缩略语对照表	第13-16页
第一章绪论	第16-22页
1.1 研究背景和意义	第16-17页
1.2 国内外研究现状	第17-19页
1.2.1 性能模型研究现状	第17-18页
1.2.2 OpenCL的性能优化以及可移植性研究现状	第18-19页
1.2.3 卷积神经网络的并行化研究现状	第19页
1.3 主要研究内容与创新	第19-20页
1.4 本文组织结构	第20-22页
第二章 GPU硬件架构与并行编程框架	第22-34页
2.1 GPU硬件架构	第22-23页
2.2 并行编程框架	第23-30页
2.2.1 CUDA	第23-26页
2.2.2 OpenCL	第26-29页
2.2.3 CUDA与OpenCL编程框架对比	第29-30页
2.3 性能模型	第30-31页
2.4 神经网络	第31-32页
2.5 本章小结	第32-34页
第三章基于GPU架构的OpenCL自调优性能模型研究	第34-52页
3.1 引言	第34页
3.2 影响GPU程序性能的因素分析	第34-36页
3.3 基于GPU架构的自调优性能模型	第36-43页
3.3.1 基于GPU架构的自调优性能模型设计	第36-37页
3.3.2 基于GPU架构的OpenCL自调优性能模型实现	第37-43页
3.4 搜索空间优化	第43-45页
3.5 实验结果与分析	第45-50页
3.5.1 实验环境	第45页
3.5.2 benchmark算法介绍以及调优参数取值范围	第45-46页
3.5.3 基于OpenCL的自调优性能模型可移植性验证	第46-48页
3.5.4 基于CUDA的自调优性能模型实验结果	第48-49页
3.5.5 基于CUDA和OpenCL的性能模型实验结果分析	第49页
3.5.6 搜索空间优化实验结果分析	第49-50页
3.6 本章小结	第50-52页
第四章基于OpenCL的并行卷积神经网络性能模型研究	第52-74页
4.1 引言	第52页
4.2 卷积神经网络算法的耗时性分析	第52-53页
4.3 并行卷积神经网络卷积算子的性能模型	第53-60页
4.3.1 卷积算子的运算强度分析	第53-54页
4.3.2 基于OpenCL的并行卷积算子性能模型设计	第54-55页
4.3.3 基于OpenCL的并行卷积算子性能模型实现	第55-60页
4.4 实验结果与分析	第60-72页
4.4.1 实验环境与实验设计	第60页
4.4.2 图像大小和卷积核大小对GPU平台运算强度的影响	第60-62页
4.4.3 每个配置参数对性能的影响	第62-65页
4.4.4 基于CUDA的并行卷积算子性能模型	第65-67页
4.4.5 并行卷积算子性能模型测试以及可移植性分析	第67-69页
4.4.6 卷积算子两种计算方法的选择	第69-71页
4.4.7 搜索空间优化实验结果分析	第71-72页
4.5 本章小结	第72-74页
第五章总结与展望	第74-76页
5.1 总结	第74-75页
5.2 展望	第75-76页
参考文献	第76-80页
致谢	第80-82页
作者简介	第82-83页