龙芯平台上高性能计算的性能优化关键问题研究
摘要 | 第5-7页 |
ABSTRACT | 第7-8页 |
算法索引 | 第15-16页 |
第一章 绪论 | 第16-26页 |
1.1 研究背景 | 第17-20页 |
1.1.1 龙芯3B1500 | 第17-19页 |
1.1.2 龙芯3B2000 | 第19页 |
1.1.3 BLAS库 | 第19页 |
1.1.4 FFTW库 | 第19-20页 |
1.2 国内外研究现状 | 第20-23页 |
1.2.1 程序性能优化 | 第20-21页 |
1.2.2 BLAS函数库优化 | 第21-22页 |
1.2.3 FFTW函数库优化 | 第22页 |
1.2.4 泊松方程求解优化 | 第22-23页 |
1.3 本文研究内容 | 第23-24页 |
1.4 本文组织结构 | 第24-26页 |
第二章 程序优化方法 | 第26-38页 |
2.1 并行计算优化 | 第26-28页 |
2.2 编译器优化 | 第28页 |
2.3 热点代码优化 | 第28-36页 |
2.3.1 热点代码分析方法 | 第28-29页 |
2.3.2 热点函数优化方法 | 第29-36页 |
2.4 异构计算 | 第36页 |
2.5 本章小结 | 第36-38页 |
第三章 基于龙芯3B1500的BLAS库优化 | 第38-62页 |
3.1 BLAS函数库简介 | 第38-40页 |
3.2 异步计算访存优化方法 | 第40-50页 |
3.2.1 单线程函数优化 | 第41-47页 |
3.2.2 节点内多核并行化 | 第47-49页 |
3.2.3 GEMM函数的性能评测 | 第49-50页 |
3.3 TRSM函数的优化 | 第50-54页 |
3.3.1 优化方法 | 第50-52页 |
3.3.2 dTRSM函数性能评测 | 第52-54页 |
3.4 TRMM函数的优化 | 第54-56页 |
3.4.1 优化方法 | 第54-55页 |
3.4.2 dTRMM函数性能评测 | 第55-56页 |
3.5 SYMM和HEMM函数的优化 | 第56-58页 |
3.5.1 优化方法 | 第56-58页 |
3.6 BLAS整体优化效果 | 第58-60页 |
3.6.1 单纯的函数测试 | 第58-59页 |
3.6.2 LINPACK测试 | 第59-60页 |
3.7 本章小结 | 第60-62页 |
第四章 基于龙芯3B1500的FFTW函数库优化 | 第62-84页 |
4.1 FFTW函数库简介 | 第62-63页 |
4.2 FFTW库的算法 | 第63-65页 |
4.2.1 Cooler-Turkey算法 | 第64页 |
4.2.2 其他FFT算法 | 第64-65页 |
4.3 多层数据划分优化方法 | 第65-75页 |
4.3.1 数据分块 | 第66-67页 |
4.3.2 多级预取优化访存 | 第67-68页 |
4.3.3 特殊指令的核心计算优化 | 第68-71页 |
4.3.4 优化参数分析 | 第71-72页 |
4.3.5 性能评估和优化效果 | 第72-75页 |
4.4 核心函数集的优化 | 第75-82页 |
4.4.1 复数输入的核心函数 | 第75-76页 |
4.4.2 实数输入的核心函数 | 第76-77页 |
4.4.3 优化方法 | 第77-80页 |
4.4.4 优化效果和性能分析 | 第80-82页 |
4.5 本章小结 | 第82-84页 |
第五章 基于CC-NUMA架构的并行计算框架优化 | 第84-94页 |
5.1 CC-NUMA简介 | 第84-86页 |
5.2 并行计算框架HPFCA | 第86-89页 |
5.2.1 PCAM并行计算框架 | 第86-87页 |
5.2.2 数据重新部署 | 第87-88页 |
5.2.3 节点内多核并行 | 第88页 |
5.2.4 HPFCA流程图 | 第88-89页 |
5.3 龙芯3B双路上的并行算法 | 第89-91页 |
5.3.1 dGEMM的并行算法 | 第89-90页 |
5.3.2 基-2FFT算法的并行实现 | 第90-91页 |
5.4 实验评测 | 第91-93页 |
5.5 本章小结 | 第93-94页 |
第六章 基于异构平台的三维泊松方程求解优化 | 第94-104页 |
6.1 背景介绍 | 第94-95页 |
6.2 异构平台下计算资源的负载均衡 | 第95-99页 |
6.2.1 泊松方程求解 | 第95-96页 |
6.2.2 多GPU上的算法实现 | 第96-97页 |
6.2.3 负载均衡 | 第97-99页 |
6.3 实验结果和分析 | 第99-102页 |
6.3.1 实验环境与参数 | 第99-100页 |
6.3.2 实验结果与分析 | 第100-102页 |
6.4 本章小结 | 第102-104页 |
第七章 总结与展望 | 第104-108页 |
7.1 本文主要工作和贡献 | 第104-105页 |
7.2 未来工作展望 | 第105-108页 |
参考文献 | 第108-114页 |
致谢 | 第114-116页 |
在读期间发表的学术论文与取得的研究成果 | 第116页 |