首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--其他计算机论文

龙芯平台上高性能计算的性能优化关键问题研究

摘要第5-7页
ABSTRACT第7-8页
算法索引第15-16页
第一章 绪论第16-26页
    1.1 研究背景第17-20页
        1.1.1 龙芯3B1500第17-19页
        1.1.2 龙芯3B2000第19页
        1.1.3 BLAS库第19页
        1.1.4 FFTW库第19-20页
    1.2 国内外研究现状第20-23页
        1.2.1 程序性能优化第20-21页
        1.2.2 BLAS函数库优化第21-22页
        1.2.3 FFTW函数库优化第22页
        1.2.4 泊松方程求解优化第22-23页
    1.3 本文研究内容第23-24页
    1.4 本文组织结构第24-26页
第二章 程序优化方法第26-38页
    2.1 并行计算优化第26-28页
    2.2 编译器优化第28页
    2.3 热点代码优化第28-36页
        2.3.1 热点代码分析方法第28-29页
        2.3.2 热点函数优化方法第29-36页
    2.4 异构计算第36页
    2.5 本章小结第36-38页
第三章 基于龙芯3B1500的BLAS库优化第38-62页
    3.1 BLAS函数库简介第38-40页
    3.2 异步计算访存优化方法第40-50页
        3.2.1 单线程函数优化第41-47页
        3.2.2 节点内多核并行化第47-49页
        3.2.3 GEMM函数的性能评测第49-50页
    3.3 TRSM函数的优化第50-54页
        3.3.1 优化方法第50-52页
        3.3.2 dTRSM函数性能评测第52-54页
    3.4 TRMM函数的优化第54-56页
        3.4.1 优化方法第54-55页
        3.4.2 dTRMM函数性能评测第55-56页
    3.5 SYMM和HEMM函数的优化第56-58页
        3.5.1 优化方法第56-58页
    3.6 BLAS整体优化效果第58-60页
        3.6.1 单纯的函数测试第58-59页
        3.6.2 LINPACK测试第59-60页
    3.7 本章小结第60-62页
第四章 基于龙芯3B1500的FFTW函数库优化第62-84页
    4.1 FFTW函数库简介第62-63页
    4.2 FFTW库的算法第63-65页
        4.2.1 Cooler-Turkey算法第64页
        4.2.2 其他FFT算法第64-65页
    4.3 多层数据划分优化方法第65-75页
        4.3.1 数据分块第66-67页
        4.3.2 多级预取优化访存第67-68页
        4.3.3 特殊指令的核心计算优化第68-71页
        4.3.4 优化参数分析第71-72页
        4.3.5 性能评估和优化效果第72-75页
    4.4 核心函数集的优化第75-82页
        4.4.1 复数输入的核心函数第75-76页
        4.4.2 实数输入的核心函数第76-77页
        4.4.3 优化方法第77-80页
        4.4.4 优化效果和性能分析第80-82页
    4.5 本章小结第82-84页
第五章 基于CC-NUMA架构的并行计算框架优化第84-94页
    5.1 CC-NUMA简介第84-86页
    5.2 并行计算框架HPFCA第86-89页
        5.2.1 PCAM并行计算框架第86-87页
        5.2.2 数据重新部署第87-88页
        5.2.3 节点内多核并行第88页
        5.2.4 HPFCA流程图第88-89页
    5.3 龙芯3B双路上的并行算法第89-91页
        5.3.1 dGEMM的并行算法第89-90页
        5.3.2 基-2FFT算法的并行实现第90-91页
    5.4 实验评测第91-93页
    5.5 本章小结第93-94页
第六章 基于异构平台的三维泊松方程求解优化第94-104页
    6.1 背景介绍第94-95页
    6.2 异构平台下计算资源的负载均衡第95-99页
        6.2.1 泊松方程求解第95-96页
        6.2.2 多GPU上的算法实现第96-97页
        6.2.3 负载均衡第97-99页
    6.3 实验结果和分析第99-102页
        6.3.1 实验环境与参数第99-100页
        6.3.2 实验结果与分析第100-102页
    6.4 本章小结第102-104页
第七章 总结与展望第104-108页
    7.1 本文主要工作和贡献第104-105页
    7.2 未来工作展望第105-108页
参考文献第108-114页
致谢第114-116页
在读期间发表的学术论文与取得的研究成果第116页

论文共116页,点击 下载论文
上一篇:面向网络服务的传输协议设计与任务调度优化
下一篇:荷电膜分离过程中的卷式组件和相关设备研究