摘要 | 第5-7页 |
Abstract | 第7-8页 |
第一章 绪论 | 第16-24页 |
1.1 研究背景 | 第16-19页 |
1.2 异构计算 | 第19-20页 |
1.3 本课题的研究现状 | 第20-21页 |
1.4 本文的主要工作 | 第21-24页 |
第二章 面向通用计算的GPU技术 | 第24-38页 |
2.1 GPU的发展历程 | 第24页 |
2.2 GPU的硬件结构 | 第24-28页 |
2.2.1 整体架构 | 第24-27页 |
2.2.2 各存储器结构与特性 | 第27-28页 |
2.3 GPU的软件编程模型 | 第28-30页 |
2.4 CUDA的软件体系与编译 | 第30-31页 |
2.5 多GPU平台 | 第31页 |
2.6 两种基本的访存优化 | 第31-34页 |
2.6.1 合并访存 | 第32-33页 |
2.6.2 bank冲突 | 第33-34页 |
2.7 指令级优化 | 第34-36页 |
2.8 本章小结 | 第36-38页 |
第三章 多层快速多极子算法在GPU/CPU异构平台上的一个优化实现 | 第38-62页 |
3.1 MLFMA算法的原理以及实现 | 第38-42页 |
3.2 多GPU平台上近场矩阵元素的计算及其优化 | 第42-47页 |
3.2.1 数据结构设计 | 第42-44页 |
3.2.2 近场矩阵元素的计算 | 第44-45页 |
3.2.3 GPU与CPU的协同计算 | 第45-47页 |
3.3 稀疏矩阵向量积的GPU加速 | 第47-49页 |
3.4 多GPU平台上远场矩阵-向量积的算法 | 第49-54页 |
3.4.1 最底层汇聚/扩散 | 第49-51页 |
3.4.2 上层汇聚/扩散 | 第51-54页 |
3.5 数值仿真 | 第54-56页 |
3.6 本章小结 | 第56-57页 |
3.7 附录 | 第57-62页 |
第四章 自适应交叉近似算法在多GPU平台上的一个优化实现 | 第62-78页 |
4.1 ACA算法原理 | 第62-64页 |
4.1.1 算法概述 | 第62-63页 |
4.1.2 算法流程 | 第63-64页 |
4.2 多GPU平台上的并行ACA算法 | 第64-72页 |
4.2.1 近场矩阵填充的混合精度优化 | 第64-65页 |
4.2.2 压缩远场子矩阵的并行算法 | 第65-67页 |
4.2.3 批量化矩阵向量积的并行方案 | 第67-72页 |
4.3 数值算例 | 第72-75页 |
4.4 本章小结 | 第75-78页 |
第五章 高阶矩量法在GPU/CPU异构平台上的带有核外LU求解器的一个优化实现 | 第78-100页 |
5.1 高阶矩量法 | 第78-82页 |
5.1.1 高阶面片 | 第78-79页 |
5.1.2 高阶基函数 | 第79-80页 |
5.1.3 高阶矩量法以及奇异性处理 | 第80-82页 |
5.2 高阶矩量法元素计算的查表法 | 第82-83页 |
5.3 生成HMoM矩阵的一个CUDA算法—核内存储版本 | 第83-86页 |
5.3.1 任务分配 | 第83-84页 |
5.3.2 面向GPU的算法优化 | 第84-85页 |
5.3.3 对比其它并行算法设计 | 第85-86页 |
5.4 生成HMoM矩阵的一个CUDA算法——核外存储版本 | 第86-88页 |
5.4.1 高阶矩量法矩阵的核外分块方法 | 第86-88页 |
5.5 核外LU分解的一个OpenMP-CUDA算法 | 第88-96页 |
5.5.1 核外LU分解的算法框架 | 第89-90页 |
5.5.2 基于GPU的核外LU分解及其优化 | 第90-93页 |
5.5.3 基于GPU/CPU协同计算的核外LU分解算法 | 第93-96页 |
5.6 数值算例 | 第96-98页 |
5.7 本章小结 | 第98-100页 |
参考文献 | 第100-110页 |
结束语与展望 | 第110-112页 |
作者简介 | 第112-114页 |
B.1 基本情况 | 第112页 |
B.2 学习和工作简历 | 第112页 |
B.3 在攻读博士学位期间所学的课程 | 第112-113页 |
B.4 在攻读博士学位期间参加的研究课题 | 第113页 |
B.5 在攻读博士学位期间完成和发表的论文 | 第113-114页 |
致谢 | 第114页 |