摘要 | 第4-6页 |
abstract | 第6-7页 |
第一章 绪论 | 第11-22页 |
1.1 引言 | 第11-17页 |
1.1.1 工程应用中的有限元方法和CAE技术 | 第11-14页 |
1.1.2 并行计算技术 | 第14-17页 |
1.1.3 基于众核处理器的CAE软件 | 第17页 |
1.2 研究内容 | 第17-20页 |
1.2.1 Delaunay三角化方法 | 第18-19页 |
1.2.2 稀疏线性方程组的求解 | 第19-20页 |
1.3 本文的结构安排 | 第20-22页 |
第二章 众核处理器架构 | 第22-30页 |
2.1 硬件架构 | 第22-24页 |
2.2 软件编程框架 | 第24-26页 |
2.3 与GPU的对比 | 第26-27页 |
2.4 优化策略 | 第27-28页 |
2.4.1 并行度优化 | 第27页 |
2.4.2 存储优化 | 第27-28页 |
2.4.3 负载均衡 | 第28页 |
2.5 本章小结 | 第28-30页 |
第三章 Delaunay三角剖分与线性方程组求解 | 第30-44页 |
3.1 Delaunay三角剖分 | 第30-36页 |
3.1.1 凸与三角化 | 第30-32页 |
3.1.2 Delaunay性质 | 第32-36页 |
3.2 稀疏矩阵存储格式 | 第36-37页 |
3.3 稀疏矩阵LU分解算法 | 第37-41页 |
3.3.1 关键步骤 | 第37-39页 |
3.3.2 Right-Looking串行算法 | 第39-40页 |
3.3.3 Left-Looking串行算法 | 第40-41页 |
3.4 共轭梯度算法和SpMv计算 | 第41-43页 |
3.4.1 共轭梯度算法 | 第41-42页 |
3.4.2 稀疏矩阵乘向量 | 第42-43页 |
3.5 本章小结 | 第43-44页 |
第四章 基于众核处理器的并行Delaunay三角化研究 | 第44-66页 |
4.1 研究进展 | 第44-48页 |
4.1.1 串行Delaunay三角化 | 第44-45页 |
4.1.2 基于多核CPU的并行Delaunay三角化 | 第45-46页 |
4.1.3 基于GPU的Delaunay三角化 | 第46-47页 |
4.1.4 基于Xeon Phi处理器的Delaunay三角化算法 | 第47-48页 |
4.2 基础算法 | 第48-54页 |
4.2.1 组合优化问题 | 第48-49页 |
4.2.2 局部优化与局部极值 | 第49-51页 |
4.2.3 基础算法详细设计 | 第51-54页 |
4.3 改进算法 | 第54-57页 |
4.3.1 组合优化问题的改进 | 第54-55页 |
4.3.2 改进算法详细设计 | 第55-57页 |
4.4 并行化设计 | 第57-61页 |
4.4.1 支持并行化的数据结构 | 第57-58页 |
4.4.2 并行翻转 | 第58-60页 |
4.4.3 并行插入 | 第60-61页 |
4.5 实验结果与分析 | 第61-65页 |
4.5.1 实验环境 | 第61-62页 |
4.5.2 测试集 | 第62页 |
4.5.3 实验结果 | 第62-65页 |
4.5.4 实验分析 | 第65页 |
4.6 本章小结 | 第65-66页 |
第五章 基于众核处理器的稀疏矩阵LU分解研究 | 第66-82页 |
5.1 研究进展 | 第66-68页 |
5.1.1 基于通用处理器的稀疏矩阵LU分解 | 第66-67页 |
5.1.2 基于FPGA的稀疏矩阵LU分解 | 第67页 |
5.1.3 基于GPU的稀疏矩阵LU分解 | 第67-68页 |
5.1.4 基于Xeon Phi的稀疏矩阵LU分解 | 第68页 |
5.2 并行LU分解算法设计 | 第68-74页 |
5.2.1 并行Right-looking算法设计 | 第68-72页 |
5.2.2 并行Left-looking算法设计 | 第72-74页 |
5.3 并行算法的优化 | 第74-78页 |
5.3.1 并行度优化 | 第74-75页 |
5.3.2 数据传输优化 | 第75-76页 |
5.3.3 存储器访问优化 | 第76页 |
5.3.4 向量化优化 | 第76-77页 |
5.3.5 负载均衡 | 第77-78页 |
5.4 实验与分析 | 第78-80页 |
5.4.1 测试集 | 第78页 |
5.4.2 加速比 | 第78-79页 |
5.4.3 内存带宽利用率 | 第79-80页 |
5.5 本章小结 | 第80-82页 |
第六章 基于众核处理器的并行共轭梯度算法研究 | 第82-98页 |
6.1 研究进展 | 第82-84页 |
6.1.1 通用处理器的稀疏矩阵向量乘 | 第82-83页 |
6.1.2 FPGA上的稀疏矩阵向量乘 | 第83页 |
6.1.3 GPU上的稀疏矩阵向量乘 | 第83页 |
6.1.4 Xeon Phi的稀疏矩阵向量乘 | 第83-84页 |
6.2 性能分析 | 第84-86页 |
6.3 Xeon Phi处理器的Roofline模型 | 第86-89页 |
6.3.1 计算密度 | 第86-87页 |
6.3.2 Phi处理器的硬件性能 | 第87页 |
6.3.3 完整的模型 | 第87-89页 |
6.4 并行SpMV算法设计 | 第89-93页 |
6.4.1 分段块CSR存储格式 | 第89-91页 |
6.4.2 基于分段CSR存储格式的串行算法 | 第91-92页 |
6.4.3 基于分段CSR存储格式的并行算法 | 第92-93页 |
6.4.4 并行CG算法 | 第93页 |
6.5 实验结果与分析 | 第93-96页 |
6.5.1 测试集 | 第93-94页 |
6.5.2 性能加速比 | 第94-95页 |
6.5.3 内存带宽利用 | 第95-96页 |
6.5.4 分块大小对性能的影响 | 第96页 |
6.6 本章小结 | 第96-98页 |
第七章 结论与展望 | 第98-100页 |
7.1 本文主要创新点 | 第98-99页 |
7.2 进一步研究展望 | 第99-100页 |
参考文献 | 第100-108页 |
攻读学位期间所取得的相关科研成果 | 第108-110页 |
致谢 | 第110页 |