首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--人工神经网络与计算论文

基于OpenCL的并行卷积神经网络性能模型研究

摘要第5-6页
ABSTRACT第6-7页
符号对照表第12-13页
缩略语对照表第13-16页
第一章 绪论第16-22页
    1.1 研究背景和意义第16-17页
    1.2 国内外研究现状第17-19页
        1.2.1 性能模型研究现状第17-18页
        1.2.2 OpenCL的性能优化以及可移植性研究现状第18-19页
        1.2.3 卷积神经网络的并行化研究现状第19页
    1.3 主要研究内容与创新第19-20页
    1.4 本文组织结构第20-22页
第二章 GPU硬件架构与并行编程框架第22-34页
    2.1 GPU硬件架构第22-23页
    2.2 并行编程框架第23-30页
        2.2.1 CUDA第23-26页
        2.2.2 OpenCL第26-29页
        2.2.3 CUDA与OpenCL编程框架对比第29-30页
    2.3 性能模型第30-31页
    2.4 神经网络第31-32页
    2.5 本章小结第32-34页
第三章 基于GPU架构的OpenCL自调优性能模型研究第34-52页
    3.1 引言第34页
    3.2 影响GPU程序性能的因素分析第34-36页
    3.3 基于GPU架构的自调优性能模型第36-43页
        3.3.1 基于GPU架构的自调优性能模型设计第36-37页
        3.3.2 基于GPU架构的OpenCL自调优性能模型实现第37-43页
    3.4 搜索空间优化第43-45页
    3.5 实验结果与分析第45-50页
        3.5.1 实验环境第45页
        3.5.2 benchmark算法介绍以及调优参数取值范围第45-46页
        3.5.3 基于OpenCL的自调优性能模型可移植性验证第46-48页
        3.5.4 基于CUDA的自调优性能模型实验结果第48-49页
        3.5.5 基于CUDA和OpenCL的性能模型实验结果分析第49页
        3.5.6 搜索空间优化实验结果分析第49-50页
    3.6 本章小结第50-52页
第四章 基于OpenCL的并行卷积神经网络性能模型研究第52-74页
    4.1 引言第52页
    4.2 卷积神经网络算法的耗时性分析第52-53页
    4.3 并行卷积神经网络卷积算子的性能模型第53-60页
        4.3.1 卷积算子的运算强度分析第53-54页
        4.3.2 基于OpenCL的并行卷积算子性能模型设计第54-55页
        4.3.3 基于OpenCL的并行卷积算子性能模型实现第55-60页
    4.4 实验结果与分析第60-72页
        4.4.1 实验环境与实验设计第60页
        4.4.2 图像大小和卷积核大小对GPU平台运算强度的影响第60-62页
        4.4.3 每个配置参数对性能的影响第62-65页
        4.4.4 基于CUDA的并行卷积算子性能模型第65-67页
        4.4.5 并行卷积算子性能模型测试以及可移植性分析第67-69页
        4.4.6 卷积算子两种计算方法的选择第69-71页
        4.4.7 搜索空间优化实验结果分析第71-72页
    4.5 本章小结第72-74页
第五章 总结与展望第74-76页
    5.1 总结第74-75页
    5.2 展望第75-76页
参考文献第76-80页
致谢第80-82页
作者简介第82-83页

论文共83页,点击 下载论文
上一篇:基于空间信息与网络学习的高光谱影像分类
下一篇:基于深度卷积网络特征优化的图像分类