首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--模式识别与装置论文

模板计算代码自动生成与性能优化

摘要第5-7页
Abstract第7-8页
第1章 绪论第14-31页
    1.1 研究背景及意义第14-21页
        1.1.1 高性能计算硬件瓶颈第14-17页
        1.1.2 高性能计算软件瓶颈第17-21页
    1.2 科学计算应用体系结构特征分析第21-23页
    1.3 研究问题第23-27页
        1.3.1 GPU模板规范与模板编译器第23页
        1.3.2 模板计算代码自动生成第23-26页
        1.3.3 模板计算的存储带宽的优化第26-27页
    1.4 研究内容与贡献第27-28页
        1.4.1 研究内容第27-28页
        1.4.2 论文的主要贡献第28页
    1.5 论文的组织第28-31页
第2章 循环的编译优化与调制优化第31-39页
    2.1 本章引言第31-32页
    2.2 循环优化第32-35页
        2.2.1 编译器优化类型第32-33页
        2.2.2 数据关联第33-35页
    2.3 循环的并行化、偏移(SKEWING)和分块(TILING)第35-36页
    2.4 循环分块优化第36-37页
    2.5 自动调制优化第37-38页
    2.6 本章小结第38-39页
第3章 模板编译器第39-47页
    3.1 本章引言第39页
    3.2 模版网格(STENCILGRIDS)第39-41页
    3.3 基于GPGPUS的模板编译工具第41-46页
        3.3.1 模板编译器第41-46页
        3.3.2 模板规范实例第46页
    3.4 本章小结第46-47页
第4章 边缘重叠的循环分块GPU代码生成第47-63页
    4.1 本章引言第47-48页
    4.2 冗余分块代码生成第48-51页
    4.3 GPU核代码生成第51-54页
    4.4 主机控制代码第54-55页
    4.5 实验分析与评价第55-60页
        4.5.1 模板编译器生成代码性能评价第56-57页
        4.5.2 参数敏感性分析第57-59页
        4.5.3 实例:Rician3D去噪模板编译代码生成与性能分析第59-60页
    4.6 本章小结第60-63页
第5章 加速模板计算的存储器映射策略第63-81页
    5.1 本章引言第63-64页
    5.2 基于GPU的模板计算第64-68页
    5.3 利用GPU的寄存器资源加速模版计算第68-70页
    5.4 存储器映射机制与优化第70-74页
        5.4.1 经典的存储映射机制第70-71页
        5.4.2 GPU的存储器映射机制建模第71-72页
        5.4.3 新的存储映射机制第72-74页
    5.5 软件预取机制第74页
    5.6 性能评价第74-80页
        5.6.1 无ghost区开销的存储器带宽测试第75-76页
        5.6.2 新的存储器映射机制的带宽测试第76-77页
        5.6.3 单精度浮点模板计算的性能第77-79页
        5.6.4 双精度浮点模板性能第79-80页
    5.7 本章小结第80-81页
结论与展望第81-83页
参考文献第83-94页
致谢第94-95页
附录A 攻读学位期间所完成的论文第95-96页
附录B 2DJacobi5点模板规范和生成的CUDA代码第96-102页

论文共102页,点击 下载论文
上一篇:面向车辆驾驶辅助系统的视频目标检测与跟踪
下一篇:高性能弹载图像融合导引系统若干计算技术研究