首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--电子数字计算机(不连续作用电子计算机)论文--运算器和控制器(CPU)论文

集成众核平台科学计算应用性能测评和优化研究

摘要第9-10页
ABSTRACT第10-11页
第一章 绪论第12-23页
    1.1 研究背景及意义第12-19页
        1.1.1 高性能众核平台第12-17页
        1.1.2 面向众核平台的科学计算应用移植和性能优化第17-18页
        1.1.3 面临的问题和本文研究的意义第18-19页
    1.2 相关研究现状第19-20页
    1.3 研究内容第20-23页
        1.3.1 主要工作及贡献第20-21页
        1.3.2 论文结构第21-23页
第二章 MIC平台上OpenCL科学计算应用性能测评第23-38页
    2.1 引言第23页
    2.2 方法和实验设置第23-25页
        2.2.1 测试方法第23页
        2.2.2 实验环境第23页
        2.2.3 映射OpenCL模型到MIC架构第23-24页
        2.2.4 测试程序第24-25页
    2.3 性能影响因素分析第25-35页
        2.3.1 工作组大小第26-27页
        2.3.2 自动向量化第27-29页
        2.3.3 本地内存第29-30页
        2.3.4 数据布局和访问模式第30-34页
        2.3.5 浮点计算优化第34页
        2.3.6 自动预取第34-35页
    2.4 优化建议第35-37页
    2.5 本章小结第37-38页
第三章 基于显式向量数据类型的向量优化第38-50页
    3.1 引言第38页
    3.2 向量数据类型及其使用策略第38-42页
        3.2.1 项间方式第39-40页
        3.2.2 项内方式第40-42页
    3.3 实验设置第42页
    3.4 采用项间方式的性能分析第42-48页
        3.4.1 MAD内核第43-44页
        3.4.2 MM内核第44-45页
        3.4.3 IC内核第45-46页
        3.4.4 BS内核第46-47页
        3.4.5 SOR内核第47-48页
        3.4.6 小结第48页
    3.5 采用项内方式的性能分析第48-49页
    3.6 对比编译器的隐式自动向量化第49页
    3.7 本章小结第49-50页
第四章 基于时间空间混合分块的局部存储优化第50-63页
    4.1 引言第50页
    4.2 OpenCL本地内存的使用第50-51页
    4.3 计算访存比第51-54页
        4.3.1 MIC处理器的计算访存比第51-52页
        4.3.2 七点模板的计算访存比第52-53页
        4.3.3 二十七点模板的计算访存比第53-54页
    4.4 模板计算的分块优化第54-59页
        4.4.1 传统的三维空间分块第54-55页
        4.4.2 改良的三维空间分块第55-57页
        4.4.3 时间空间混合分块第57-59页
    4.5 混合分块模板计算的实现与分析第59-62页
        4.5.1 并行时间空间混合分块算法第59-60页
        4.5.2 七点模板计算的OpenCL实现第60-62页
    4.6 本章小结第62-63页
第五章 总结与展望第63-65页
    5.1 工作总结第63-64页
    5.2 研究展望第64-65页
致谢第65-67页
参考文献第67-73页
作者在学期间取得的学术成果第73页

论文共73页,点击 下载论文
上一篇:降维算法及其在人脸检测中应用的研究
下一篇:碳纤维表面和界面性能研究及评价