基于众核处理器的并行有限元方法研究及工程应用

摘要	第4-6页
abstract	第6-7页
第一章绪论	第11-22页
1.1 引言	第11-17页
1.1.1 工程应用中的有限元方法和CAE技术	第11-14页
1.1.2 并行计算技术	第14-17页
1.1.3 基于众核处理器的CAE软件	第17页
1.2 研究内容	第17-20页
1.2.1 Delaunay三角化方法	第18-19页
1.2.2 稀疏线性方程组的求解	第19-20页
1.3 本文的结构安排	第20-22页
第二章众核处理器架构	第22-30页
2.1 硬件架构	第22-24页
2.2 软件编程框架	第24-26页
2.3 与GPU的对比	第26-27页
2.4 优化策略	第27-28页
2.4.1 并行度优化	第27页
2.4.2 存储优化	第27-28页
2.4.3 负载均衡	第28页
2.5 本章小结	第28-30页
第三章 Delaunay三角剖分与线性方程组求解	第30-44页
3.1 Delaunay三角剖分	第30-36页
3.1.1 凸与三角化	第30-32页
3.1.2 Delaunay性质	第32-36页
3.2 稀疏矩阵存储格式	第36-37页
3.3 稀疏矩阵LU分解算法	第37-41页
3.3.1 关键步骤	第37-39页
3.3.2 Right-Looking串行算法	第39-40页
3.3.3 Left-Looking串行算法	第40-41页
3.4 共轭梯度算法和SpMv计算	第41-43页
3.4.1 共轭梯度算法	第41-42页
3.4.2 稀疏矩阵乘向量	第42-43页
3.5 本章小结	第43-44页
第四章基于众核处理器的并行Delaunay三角化研究	第44-66页
4.1 研究进展	第44-48页
4.1.1 串行Delaunay三角化	第44-45页
4.1.2 基于多核CPU的并行Delaunay三角化	第45-46页
4.1.3 基于GPU的Delaunay三角化	第46-47页
4.1.4 基于Xeon Phi处理器的Delaunay三角化算法	第47-48页
4.2 基础算法	第48-54页
4.2.1 组合优化问题	第48-49页
4.2.2 局部优化与局部极值	第49-51页
4.2.3 基础算法详细设计	第51-54页
4.3 改进算法	第54-57页
4.3.1 组合优化问题的改进	第54-55页
4.3.2 改进算法详细设计	第55-57页
4.4 并行化设计	第57-61页
4.4.1 支持并行化的数据结构	第57-58页
4.4.2 并行翻转	第58-60页
4.4.3 并行插入	第60-61页
4.5 实验结果与分析	第61-65页
4.5.1 实验环境	第61-62页
4.5.2 测试集	第62页
4.5.3 实验结果	第62-65页
4.5.4 实验分析	第65页
4.6 本章小结	第65-66页
第五章基于众核处理器的稀疏矩阵LU分解研究	第66-82页
5.1 研究进展	第66-68页
5.1.1 基于通用处理器的稀疏矩阵LU分解	第66-67页
5.1.2 基于FPGA的稀疏矩阵LU分解	第67页
5.1.3 基于GPU的稀疏矩阵LU分解	第67-68页
5.1.4 基于Xeon Phi的稀疏矩阵LU分解	第68页
5.2 并行LU分解算法设计	第68-74页
5.2.1 并行Right-looking算法设计	第68-72页
5.2.2 并行Left-looking算法设计	第72-74页
5.3 并行算法的优化	第74-78页
5.3.1 并行度优化	第74-75页
5.3.2 数据传输优化	第75-76页
5.3.3 存储器访问优化	第76页
5.3.4 向量化优化	第76-77页
5.3.5 负载均衡	第77-78页
5.4 实验与分析	第78-80页
5.4.1 测试集	第78页
5.4.2 加速比	第78-79页
5.4.3 内存带宽利用率	第79-80页
5.5 本章小结	第80-82页
第六章基于众核处理器的并行共轭梯度算法研究	第82-98页
6.1 研究进展	第82-84页
6.1.1 通用处理器的稀疏矩阵向量乘	第82-83页
6.1.2 FPGA上的稀疏矩阵向量乘	第83页
6.1.3 GPU上的稀疏矩阵向量乘	第83页
6.1.4 Xeon Phi的稀疏矩阵向量乘	第83-84页
6.2 性能分析	第84-86页
6.3 Xeon Phi处理器的Roofline模型	第86-89页
6.3.1 计算密度	第86-87页
6.3.2 Phi处理器的硬件性能	第87页
6.3.3 完整的模型	第87-89页
6.4 并行SpMV算法设计	第89-93页
6.4.1 分段块CSR存储格式	第89-91页
6.4.2 基于分段CSR存储格式的串行算法	第91-92页
6.4.3 基于分段CSR存储格式的并行算法	第92-93页
6.4.4 并行CG算法	第93页
6.5 实验结果与分析	第93-96页
6.5.1 测试集	第93-94页
6.5.2 性能加速比	第94-95页
6.5.3 内存带宽利用	第95-96页
6.5.4 分块大小对性能的影响	第96页
6.6 本章小结	第96-98页
第七章结论与展望	第98-100页
7.1 本文主要创新点	第98-99页
7.2 进一步研究展望	第99-100页
参考文献	第100-108页
攻读学位期间所取得的相关科研成果	第108-110页
致谢	第110页