首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--电子数字计算机(不连续作用电子计算机)论文--各种电子数字计算机论文

HPCG在多核/众核平台上的实现与优化

摘要第5-7页
ABSTRACT第7-8页
第1章 绪论第15-23页
    1.1 研究背景第15-19页
        1.1.1 国产高性能计算系统的发展趋势第15-16页
        1.1.2 商用高性能处理器系统发展趋势第16-17页
        1.1.3 系统基准测试程序的发展趋势第17-18页
        1.1.4 本文的研究动机第18-19页
    1.2 论文研究目标和主要工作第19-21页
        1.2.1 HPCG在商用多核/众核处理器上的优化策略和技术第20页
        1.2.2 HPCG在神威·太湖之光系统上的实现与优化技术第20页
        1.2.3 HPCG在多核/众核上实现与优化的策略和技术比较第20-21页
    1.3 论文结构第21-23页
第2章 相关工作第23-29页
    2.1 并行计算机系统性能测试程序第23-26页
        2.1.1 LINPACK第23-24页
        2.1.2 HPCC第24页
        2.1.3 HPCG第24-26页
        2.1.4 Graph 500第26页
    2.2 HPCG在商用多核/众核处理器平台上的优化策略和技术第26-28页
        2.2.1 GPU上的优化技术第27页
        2.2.2 Xeon Phi上的优化技术第27-28页
    2.3 HPCG在超级计算机上的实现与优化第28页
    2.4 本章小结第28-29页
第3章 HPCG在商用多核/众核处理器上的优化策略和技术第29-49页
    3.1 HPCG基准测试程序的程序结构第29-31页
    3.2 HPCG程序运行时行为特征分析第31-36页
        3.2.1 计算特征第32页
        3.2.2 访存特征第32-33页
        3.2.3 通信特征第33-35页
        3.2.4 I/O特征第35-36页
    3.3 HPCG在多核/众核平台上实现和优化的重点和难点第36-38页
    3.4 HPCG在Xeon多核处理器上的并行与优化第38-45页
        3.4.1 Multi-Coloring并行化第38-39页
        3.4.2 前后项融合计算以及并行化第39-42页
        3.4.3 其他优化方法第42-43页
        3.4.4 性能分析第43-45页
    3.5 GPU P100上的HPCG性能分析第45-46页
    3.6 KNL上的HPCG的实现和性能分析第46-48页
        3.6.1 基于MC方法的HPCG实现第46页
        3.6.2 基于HGC方法的HPCG实现第46-48页
    3.7 本章小结第48-49页
第4章 HPCG在神威·太湖之光系统上的实现和优化技术第49-71页
    4.1 神威·太湖之光与SW26010众核处理器第49-52页
        4.1.1 神威·太湖之光第49-50页
        4.1.2 SW26010众核处理器第50-52页
    4.2 HPCG在申威处理器上的移植第52页
    4.3 HPCG在申威处理器上的并行化方法设计第52-59页
        4.3.1 Multi-Coloring并行化第52-53页
        4.3.2 Level-Scheduling并行化第53-55页
        4.3.3 0-1并行化第55-56页
        4.3.4 Hierarchical Grid Collaborative并行化第56-59页
    4.4 单核组优化方案设计第59-63页
        4.4.1 数据传输优化第59-60页
        4.4.2 协同计算优化第60-61页
        4.4.3 数据同步优化第61页
        4.4.4 SIMD优化第61页
        4.4.5 其他优化第61-63页
    4.5 多核组优化方案设计第63-64页
        4.5.1 软件Cache设计第63页
        4.5.2 异步发送第63-64页
    4.6 性能分析第64-70页
        4.6.1 测试算例第64页
        4.6.2 单核组性能分析第64-69页
        4.6.3 多节点性能分析第69-70页
    4.7 本章小结第70-71页
第5章 HPCG在多核/众核上的实现和优化的策略和技术比较第71-79页
    5.1 HPCG在多核/众核处理器上的差异性比较第71-74页
        5.1.1 并行方法上的差异第71-72页
        5.1.2 访存带宽上的差异第72页
        5.1.3 内存模式的差异第72-73页
        5.1.4 向量化的差异第73-74页
        5.1.5 编程实现上的差异第74页
    5.2 下一代神威处理器的改进建议第74-77页
        5.2.1 内存大小第74-75页
        5.2.2 访存带宽第75页
        5.2.3 向量化指令第75-76页
        5.2.4 Shared Memory的设计第76页
        5.2.5 从核通信方式第76页
        5.2.6 从核访问主核的通路设计第76-77页
        5.2.7 编程接口的设计第77页
    5.3 本章小结第77-79页
第6章 全文总结第79-83页
    6.1 研究工作总结第79-81页
    6.2 本文创新点第81-82页
    6.3 未来工作展望第82-83页
参考文献第83-87页
致谢第87-88页
在读期间发表的学术论文与取得的研究成果第88-89页
在读期间参与的科研项目第89页

论文共89页,点击 下载论文
上一篇:基于KVM虚拟机动态迁移的研究与实现
下一篇:神威·太湖之光上数据流编程模型的设计与实现