首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--电子数字计算机(不连续作用电子计算机)论文--运算器和控制器(CPU)论文

面向GPU异构系统的测评与应用研究

摘要第12-14页
Abstract第14-15页
第一章 绪论第16-26页
    1.1 研究背景第16-18页
        1.1.1 多核处理器与众核协处理器的起源与发展第16页
        1.1.2 国内外高性能计算的发展现状第16-18页
    1.2 众核体系结构与异构系统第18-22页
        1.2.1 众核体系结构的优势第18-19页
        1.2.2 多核/众核异构系统面临的挑战第19-20页
        1.2.3 异构系统的相关研究第20-22页
    1.3 研究内容和贡献第22-24页
        1.3.1 本文研究内容第22-23页
        1.3.2 本文贡献第23-24页
    1.4 论文结构第24-26页
第二章 GPU背景知识第26-40页
    2.1 GPU硬件架构第26-30页
        2.1.1 SM基本结构第26-27页
        2.1.2 GPU组成结构第27-29页
        2.1.3 GPU硬件架构的可扩展性分析第29-30页
    2.2 GPU执行核心第30-33页
        2.2.1 算术运算第30-31页
        2.2.2 分支处理第31-32页
        2.2.3 算术延迟与分支顺序测评第32-33页
    2.3 GPU存储系统第33-37页
        2.3.1 GPU存储体系第33-35页
        2.3.2 存储优化方法第35-36页
        2.3.3 关于存储优化的思考第36-37页
    2.4 CPU/GPU异构系统第37-38页
        2.4.1 CPU/GPU异构系统组成第37页
        2.4.2 异构协同优化方法第37-38页
        2.4.3 关于异构协同优化的思考第38页
    2.5 本文实验平台第38-39页
    2.6 本章小结第39-40页
第三章 warp级GPU存储基准测评第40-62页
    3.1 引言第40-41页
    3.2 相关工作第41-42页
    3.3 thread级访存延迟测评第42-44页
    3.4 warp级并行测评方法第44-48页
        3.4.1 warp级延迟测评第44页
        3.4.2 广播与并行访存实验第44-46页
        3.4.3 对齐与连续访存实验第46-48页
    3.5 warp级GPU存储测评第48-54页
        3.5.1 共享存储并行测评第48-49页
        3.5.2 常量存储并行测评第49-51页
        3.5.3 全局存储并行测评第51页
        3.5.4 纹理存储并行测评第51-53页
        3.5.5 warp级存储测评总结第53-54页
    3.6 一些其他GPU存储优化研究第54-57页
        3.6.1 寄存器与局部存储的分配策略第54-55页
        3.6.2 bank conflict及其避免第55-56页
        3.6.3 全局存储访存带宽探索第56-57页
    3.7 GPU访存优化策略第57-59页
        3.7.1 寄存器优化探讨第57页
        3.7.2 共享存储优化探讨第57-58页
        3.7.3 常量存储的优化探讨第58页
        3.7.4 全局存储优化探讨第58页
        3.7.5 纹理存储的优化探讨第58-59页
        3.7.6 GPU访存优化框架第59页
    3.8 优化实例与效果展示第59-60页
    3.9 本章小结第60-62页
第四章 分段式的主机端存储选择模型第62-82页
    4.1 引言第62-63页
    4.2 相关工作第63页
    4.3 主机端存储及问题提出第63-64页
        4.3.1 主机端存储类型第63-64页
        4.3.2 从矩阵乘法提出问题第64页
    4.4 初探主机端存储第64-65页
    4.5 主机端存储选择模型第65-74页
        4.5.1 主机端存储的访存带宽第65-67页
        4.5.2 PCI-Express带宽第67-72页
        4.5.3 页锁定存储注册与解除注册第72-73页
        4.5.4 主机端存储选择模型第73-74页
    4.6 实例研究:PCA降维第74-76页
    4.7 其他异构协同优化技术与实例研究第76-80页
        4.7.1 zerocopy优化研究第76-79页
        4.7.2 计算与通信重叠第79页
        4.7.3 计算与计算重叠第79-80页
    4.8 异构协同优化总结第80-81页
    4.9 本章小结第81-82页
第五章 基于众核GPU的高光谱影像降维算法第82-110页
    5.1 引言第82-83页
    5.2 相关工作第83-84页
    5.3 高光谱影像线性降维算法第84-87页
        5.3.1 主成分分析第84-85页
        5.3.2 独立成分分析第85-86页
        5.3.3 最大噪声分数变换第86-87页
    5.4 降维热点并行化方案第87-94页
        5.4.1 协方差矩阵的并行计算第88-90页
        5.4.2 并行PCA/ICA/MNF变换与白化处理第90-92页
        5.4.3 ICA并行迭代第92-93页
        5.4.4 并行噪声估计第93-94页
    5.5 面向众核GPU的性能优化策略及效果第94-99页
        5.5.1 协方差矩阵计算优化第94-96页
        5.5.2 PCA/ICA/MNF变换与白化处理的性能优化第96页
        5.5.3 ICA迭代的性能优化研究第96-97页
        5.5.4 噪声估计的性能优化研究第97-99页
    5.6 面向众核体系结构的高光谱影像并行降维框架第99-103页
        5.6.1 基于GPU的PCA降维算法第100-101页
        5.6.2 基于GPUs集群的FastICA降维算法第101页
        5.6.3 基于GPU的MNF降维算法第101-103页
    5.7 实验结果与分析第103-109页
        5.7.1 实验准备第103-105页
        5.7.2 并行算法加速比分析第105-106页
        5.7.3 可扩展性分析第106-108页
        5.7.4 实验讨论第108-109页
    5.8 本章小结第109-110页
第六章 基于众核GPU的声呐信号波束形成算法第110-136页
    6.1 引言第110-111页
    6.2 波束形成概述第111-113页
        6.2.1 基本概念第111页
        6.2.2 阵列流型计算第111-113页
    6.3 相关工作第113-114页
        6.3.1 波束形成算法发展与现状第113页
        6.3.2 波束形成并行处理发展和现状第113-114页
    6.4 基于GPU的万基元实时频域常规波束形成第114-123页
        6.4.1 常规波束形成第114-115页
        6.4.2 GPU并行方案设计第115-117页
        6.4.3 面向众核GPU的性能优化策略与效果第117-120页
        6.4.4 基于GPU的频域常规波束形成算法第120页
        6.4.5 实验结果分析第120-123页
    6.5 基于GPU的最小方差无畸变响应自适应波束形成第123-134页
        6.5.1 最小方差无畸变响应波束形成及热点分析第123-126页
        6.5.2 MVDR并行方案设计第126-128页
        6.5.3 面向众核GPU的性能优化策略与效果第128-131页
        6.5.4 并行MVDR自适应波束形成算法第131-132页
        6.5.5 实验结果分析第132-134页
    6.6 本章小结第134-136页
第七章 结论与展望第136-138页
    7.1 工作总结第136-137页
    7.2 研究展望第137-138页
致谢第138-140页
参考文献第140-150页
作者在学期间取得的学术成果第150-151页

论文共151页,点击 下载论文
上一篇:量子保密通信中若干问题的研究
下一篇:分布式存储系统数据安全与编码技术研究