龙芯平台上高性能计算的性能优化关键问题研究

摘要	第5-7页
ABSTRACT	第7-8页
算法索引	第15-16页
第一章绪论	第16-26页
1.1 研究背景	第17-20页
1.1.1 龙芯3B1500	第17-19页
1.1.2 龙芯3B2000	第19页
1.1.3 BLAS库	第19页
1.1.4 FFTW库	第19-20页
1.2 国内外研究现状	第20-23页
1.2.1 程序性能优化	第20-21页
1.2.2 BLAS函数库优化	第21-22页
1.2.3 FFTW函数库优化	第22页
1.2.4 泊松方程求解优化	第22-23页
1.3 本文研究内容	第23-24页
1.4 本文组织结构	第24-26页
第二章程序优化方法	第26-38页
2.1 并行计算优化	第26-28页
2.2 编译器优化	第28页
2.3 热点代码优化	第28-36页
2.3.1 热点代码分析方法	第28-29页
2.3.2 热点函数优化方法	第29-36页
2.4 异构计算	第36页
2.5 本章小结	第36-38页
第三章基于龙芯3B1500的BLAS库优化	第38-62页
3.1 BLAS函数库简介	第38-40页
3.2 异步计算访存优化方法	第40-50页
3.2.1 单线程函数优化	第41-47页
3.2.2 节点内多核并行化	第47-49页
3.2.3 GEMM函数的性能评测	第49-50页
3.3 TRSM函数的优化	第50-54页
3.3.1 优化方法	第50-52页
3.3.2 dTRSM函数性能评测	第52-54页
3.4 TRMM函数的优化	第54-56页
3.4.1 优化方法	第54-55页
3.4.2 dTRMM函数性能评测	第55-56页
3.5 SYMM和HEMM函数的优化	第56-58页
3.5.1 优化方法	第56-58页
3.6 BLAS整体优化效果	第58-60页
3.6.1 单纯的函数测试	第58-59页
3.6.2 LINPACK测试	第59-60页
3.7 本章小结	第60-62页
第四章基于龙芯3B1500的FFTW函数库优化	第62-84页
4.1 FFTW函数库简介	第62-63页
4.2 FFTW库的算法	第63-65页
4.2.1 Cooler-Turkey算法	第64页
4.2.2 其他FFT算法	第64-65页
4.3 多层数据划分优化方法	第65-75页
4.3.1 数据分块	第66-67页
4.3.2 多级预取优化访存	第67-68页
4.3.3 特殊指令的核心计算优化	第68-71页
4.3.4 优化参数分析	第71-72页
4.3.5 性能评估和优化效果	第72-75页
4.4 核心函数集的优化	第75-82页
4.4.1 复数输入的核心函数	第75-76页
4.4.2 实数输入的核心函数	第76-77页
4.4.3 优化方法	第77-80页
4.4.4 优化效果和性能分析	第80-82页
4.5 本章小结	第82-84页
第五章基于CC-NUMA架构的并行计算框架优化	第84-94页
5.1 CC-NUMA简介	第84-86页
5.2 并行计算框架HPFCA	第86-89页
5.2.1 PCAM并行计算框架	第86-87页
5.2.2 数据重新部署	第87-88页
5.2.3 节点内多核并行	第88页
5.2.4 HPFCA流程图	第88-89页
5.3 龙芯3B双路上的并行算法	第89-91页
5.3.1 dGEMM的并行算法	第89-90页
5.3.2 基-2FFT算法的并行实现	第90-91页
5.4 实验评测	第91-93页
5.5 本章小结	第93-94页
第六章基于异构平台的三维泊松方程求解优化	第94-104页
6.1 背景介绍	第94-95页
6.2 异构平台下计算资源的负载均衡	第95-99页
6.2.1 泊松方程求解	第95-96页
6.2.2 多GPU上的算法实现	第96-97页
6.2.3 负载均衡	第97-99页
6.3 实验结果和分析	第99-102页
6.3.1 实验环境与参数	第99-100页
6.3.2 实验结果与分析	第100-102页
6.4 本章小结	第102-104页
第七章总结与展望	第104-108页
7.1 本文主要工作和贡献	第104-105页
7.2 未来工作展望	第105-108页
参考文献	第108-114页
致谢	第114-116页
在读期间发表的学术论文与取得的研究成果	第116页