首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--电子数字计算机(不连续作用电子计算机)论文--运算器和控制器(CPU)论文

面向申威众核架构的GROMACS并行实现与性能优化

摘要第5-6页
ABSTRACT第6-7页
第1章 绪论第13-25页
    1.1 研究背景第13-18页
        1.1.1 处理器发展现状第13-14页
        1.1.2 神威·太湖之光与申威异构众核处理器SW26010第14-17页
        1.1.3 分子动力学模拟对平台计算能力的需求第17-18页
    1.2 神威·太湖之光上应用并行实现和性能优化所面临的挑战第18-22页
        1.2.1 并行模式方面所面临的挑战第18-20页
        1.2.2 存储结构方面所面临的的挑战第20-21页
        1.2.3 访存特性方面所面临的的挑战第21-22页
    1.3 论文研究目标和主要工作第22-23页
        1.3.1 分子动力学软件GROMACS在神威·太湖之光上的并行实现第22-23页
        1.3.2 分子动力学软件GROMACS在神威·太湖之光上的性能优化第23页
    1.4 论文结构第23-25页
第2章 相关工作第25-33页
    2.1 GROMACS软件介绍第25-27页
        2.1.1 软件简介与版本迭代第25-26页
        2.1.2 软件工作流程第26-27页
    2.2 GROMACS在同构多核CPU平台上的并行实现第27-28页
    2.3 GROMACS在异构加速平台上的并行实现第28-31页
        2.3.1 在“CPU-GPU”平台上的并行实现第28-29页
        2.3.2 在Cell处理器平台上的并行实现第29-31页
    2.4 本章小结第31-33页
第3章 GROMACS在神威·太湖之光上的并行实现第33-43页
    3.1 热点函数结构分析第33-35页
        3.1.1 热点函数耗时占比第33-34页
        3.1.2 热点函数代码框架第34-35页
        3.1.3 热点函数数据结构第35页
    3.2 GROMACS在主核上的移植第35-37页
    3.3 GROMACS在从核阵列上的并行化第37-41页
        3.3.1 任务划分粒度和从核加速线程库第37-38页
        3.3.2 从核任务划分策略第38-39页
        3.3.3 消除从核数据依赖第39页
        3.3.4 三级流水线并行第39-41页
    3.4 本章小结第41-43页
第4章 GROMACS在神威·太湖之光上的性能优化第43-61页
    4.1 热点函数访存特征分析第43-44页
    4.2 从核访存优化第44-48页
        4.2.1 充分利用从核私有存储空间暂存数据第44-46页
        4.2.2 使用DMA降低从核访存的时间开销第46-48页
    4.3 手动实现软件Cache第48-52页
        4.3.1 内外层循环倒置第49页
        4.3.2 数据预取策略第49-50页
        4.3.3 数据替换策略第50页
        4.3.4 数据重用策略第50-51页
        4.3.5 输出数据的缓冲Buffer第51页
        4.3.6 软件Cache大小对热点函数性能的影响第51-52页
    4.4 从核混合并行模式第52-56页
        4.4.1 调度核功能设计第52-53页
        4.4.2 计算核功能设计第53-54页
        4.4.3 调度核与计算核协同计算第54-56页
    4.5 手动向量化第56-58页
    4.6 本章小结第58-61页
第5章 GROMACS性能测试与分析第61-69页
    5.1 实验平台第61-62页
    5.2 不同优化策略的加速效果第62-64页
    5.3 从核数目对软件性能的影响第64-66页
    5.4 多节点扩展效果第66-67页
    5.5 本章小结第67-69页
第6章 全文总结第69-73页
    6.1 研究工作总结第69-70页
    6.2 本文创新点第70页
    6.3 未来工作展望第70-73页
参考文献第73-77页
致谢第77-79页
在读期间发表的学术论文与取得的研究成果第79-81页
在读期间参与的科研项目第81页

论文共81页,点击 下载论文
上一篇:采用控制理论方法制备量子门
下一篇:基于65nm浮栅工艺NOR flash存储器驱动电路设计