摘要 | 第12-14页 |
Abstract | 第14-15页 |
第一章 绪论 | 第16-26页 |
1.1 研究背景 | 第16-18页 |
1.1.1 多核处理器与众核协处理器的起源与发展 | 第16页 |
1.1.2 国内外高性能计算的发展现状 | 第16-18页 |
1.2 众核体系结构与异构系统 | 第18-22页 |
1.2.1 众核体系结构的优势 | 第18-19页 |
1.2.2 多核/众核异构系统面临的挑战 | 第19-20页 |
1.2.3 异构系统的相关研究 | 第20-22页 |
1.3 研究内容和贡献 | 第22-24页 |
1.3.1 本文研究内容 | 第22-23页 |
1.3.2 本文贡献 | 第23-24页 |
1.4 论文结构 | 第24-26页 |
第二章 GPU背景知识 | 第26-40页 |
2.1 GPU硬件架构 | 第26-30页 |
2.1.1 SM基本结构 | 第26-27页 |
2.1.2 GPU组成结构 | 第27-29页 |
2.1.3 GPU硬件架构的可扩展性分析 | 第29-30页 |
2.2 GPU执行核心 | 第30-33页 |
2.2.1 算术运算 | 第30-31页 |
2.2.2 分支处理 | 第31-32页 |
2.2.3 算术延迟与分支顺序测评 | 第32-33页 |
2.3 GPU存储系统 | 第33-37页 |
2.3.1 GPU存储体系 | 第33-35页 |
2.3.2 存储优化方法 | 第35-36页 |
2.3.3 关于存储优化的思考 | 第36-37页 |
2.4 CPU/GPU异构系统 | 第37-38页 |
2.4.1 CPU/GPU异构系统组成 | 第37页 |
2.4.2 异构协同优化方法 | 第37-38页 |
2.4.3 关于异构协同优化的思考 | 第38页 |
2.5 本文实验平台 | 第38-39页 |
2.6 本章小结 | 第39-40页 |
第三章 warp级GPU存储基准测评 | 第40-62页 |
3.1 引言 | 第40-41页 |
3.2 相关工作 | 第41-42页 |
3.3 thread级访存延迟测评 | 第42-44页 |
3.4 warp级并行测评方法 | 第44-48页 |
3.4.1 warp级延迟测评 | 第44页 |
3.4.2 广播与并行访存实验 | 第44-46页 |
3.4.3 对齐与连续访存实验 | 第46-48页 |
3.5 warp级GPU存储测评 | 第48-54页 |
3.5.1 共享存储并行测评 | 第48-49页 |
3.5.2 常量存储并行测评 | 第49-51页 |
3.5.3 全局存储并行测评 | 第51页 |
3.5.4 纹理存储并行测评 | 第51-53页 |
3.5.5 warp级存储测评总结 | 第53-54页 |
3.6 一些其他GPU存储优化研究 | 第54-57页 |
3.6.1 寄存器与局部存储的分配策略 | 第54-55页 |
3.6.2 bank conflict及其避免 | 第55-56页 |
3.6.3 全局存储访存带宽探索 | 第56-57页 |
3.7 GPU访存优化策略 | 第57-59页 |
3.7.1 寄存器优化探讨 | 第57页 |
3.7.2 共享存储优化探讨 | 第57-58页 |
3.7.3 常量存储的优化探讨 | 第58页 |
3.7.4 全局存储优化探讨 | 第58页 |
3.7.5 纹理存储的优化探讨 | 第58-59页 |
3.7.6 GPU访存优化框架 | 第59页 |
3.8 优化实例与效果展示 | 第59-60页 |
3.9 本章小结 | 第60-62页 |
第四章 分段式的主机端存储选择模型 | 第62-82页 |
4.1 引言 | 第62-63页 |
4.2 相关工作 | 第63页 |
4.3 主机端存储及问题提出 | 第63-64页 |
4.3.1 主机端存储类型 | 第63-64页 |
4.3.2 从矩阵乘法提出问题 | 第64页 |
4.4 初探主机端存储 | 第64-65页 |
4.5 主机端存储选择模型 | 第65-74页 |
4.5.1 主机端存储的访存带宽 | 第65-67页 |
4.5.2 PCI-Express带宽 | 第67-72页 |
4.5.3 页锁定存储注册与解除注册 | 第72-73页 |
4.5.4 主机端存储选择模型 | 第73-74页 |
4.6 实例研究:PCA降维 | 第74-76页 |
4.7 其他异构协同优化技术与实例研究 | 第76-80页 |
4.7.1 zerocopy优化研究 | 第76-79页 |
4.7.2 计算与通信重叠 | 第79页 |
4.7.3 计算与计算重叠 | 第79-80页 |
4.8 异构协同优化总结 | 第80-81页 |
4.9 本章小结 | 第81-82页 |
第五章 基于众核GPU的高光谱影像降维算法 | 第82-110页 |
5.1 引言 | 第82-83页 |
5.2 相关工作 | 第83-84页 |
5.3 高光谱影像线性降维算法 | 第84-87页 |
5.3.1 主成分分析 | 第84-85页 |
5.3.2 独立成分分析 | 第85-86页 |
5.3.3 最大噪声分数变换 | 第86-87页 |
5.4 降维热点并行化方案 | 第87-94页 |
5.4.1 协方差矩阵的并行计算 | 第88-90页 |
5.4.2 并行PCA/ICA/MNF变换与白化处理 | 第90-92页 |
5.4.3 ICA并行迭代 | 第92-93页 |
5.4.4 并行噪声估计 | 第93-94页 |
5.5 面向众核GPU的性能优化策略及效果 | 第94-99页 |
5.5.1 协方差矩阵计算优化 | 第94-96页 |
5.5.2 PCA/ICA/MNF变换与白化处理的性能优化 | 第96页 |
5.5.3 ICA迭代的性能优化研究 | 第96-97页 |
5.5.4 噪声估计的性能优化研究 | 第97-99页 |
5.6 面向众核体系结构的高光谱影像并行降维框架 | 第99-103页 |
5.6.1 基于GPU的PCA降维算法 | 第100-101页 |
5.6.2 基于GPUs集群的FastICA降维算法 | 第101页 |
5.6.3 基于GPU的MNF降维算法 | 第101-103页 |
5.7 实验结果与分析 | 第103-109页 |
5.7.1 实验准备 | 第103-105页 |
5.7.2 并行算法加速比分析 | 第105-106页 |
5.7.3 可扩展性分析 | 第106-108页 |
5.7.4 实验讨论 | 第108-109页 |
5.8 本章小结 | 第109-110页 |
第六章 基于众核GPU的声呐信号波束形成算法 | 第110-136页 |
6.1 引言 | 第110-111页 |
6.2 波束形成概述 | 第111-113页 |
6.2.1 基本概念 | 第111页 |
6.2.2 阵列流型计算 | 第111-113页 |
6.3 相关工作 | 第113-114页 |
6.3.1 波束形成算法发展与现状 | 第113页 |
6.3.2 波束形成并行处理发展和现状 | 第113-114页 |
6.4 基于GPU的万基元实时频域常规波束形成 | 第114-123页 |
6.4.1 常规波束形成 | 第114-115页 |
6.4.2 GPU并行方案设计 | 第115-117页 |
6.4.3 面向众核GPU的性能优化策略与效果 | 第117-120页 |
6.4.4 基于GPU的频域常规波束形成算法 | 第120页 |
6.4.5 实验结果分析 | 第120-123页 |
6.5 基于GPU的最小方差无畸变响应自适应波束形成 | 第123-134页 |
6.5.1 最小方差无畸变响应波束形成及热点分析 | 第123-126页 |
6.5.2 MVDR并行方案设计 | 第126-128页 |
6.5.3 面向众核GPU的性能优化策略与效果 | 第128-131页 |
6.5.4 并行MVDR自适应波束形成算法 | 第131-132页 |
6.5.5 实验结果分析 | 第132-134页 |
6.6 本章小结 | 第134-136页 |
第七章 结论与展望 | 第136-138页 |
7.1 工作总结 | 第136-137页 |
7.2 研究展望 | 第137-138页 |
致谢 | 第138-140页 |
参考文献 | 第140-150页 |
作者在学期间取得的学术成果 | 第150-151页 |