众核GPU体系结构相关技术研究
目录 | 第1-7页 |
摘要 | 第7-9页 |
Abstract | 第9-12页 |
第1章 绪论 | 第12-33页 |
·研究背景 | 第12-15页 |
·数据并行应用的需求 | 第12-14页 |
·CPU体系结构面临的问题 | 第14-15页 |
·VLSI技术的特点 | 第15页 |
·GPU体系结构的并行机制 | 第15-20页 |
·并行计算模型 | 第15-17页 |
·GPU体系结构的特性 | 第17-18页 |
·GPU与多核体系结构的区别 | 第18-19页 |
·GPU与向量体系结构的区别 | 第19-20页 |
·相关研究 | 第20-29页 |
·GPU体系结构的演变 | 第20-23页 |
·GPU编程模型的发展 | 第23-25页 |
·GPGPU研究进展 | 第25-29页 |
·论文工作 | 第29-31页 |
·研究意义 | 第29-30页 |
·研究目标 | 第30-31页 |
·本文的创新点 | 第31页 |
·论文结构 | 第31-33页 |
第2章 GPU体系结构与编程模型 | 第33-50页 |
·多核CPU-众核GPU异构系统的优势 | 第33-35页 |
·主流GPGPU技术 | 第35-43页 |
·AMD/ATISTREAM~TM技术 | 第35-38页 |
·NVIDIA CUDA~TM技术 | 第38-42页 |
·两种GPGPU技术对比 | 第42-43页 |
·OPENCL:跨平台的多核与众核编程模型 | 第43-46页 |
·平台模型 | 第44页 |
·执行模型 | 第44-45页 |
·存储模型 | 第45页 |
·编程模型 | 第45-46页 |
·数据并行体系结构 | 第46-49页 |
·本章小结 | 第49-50页 |
第3章 GPGPU量化性能模型 | 第50-75页 |
·引言 | 第50-51页 |
·相关工作 | 第51-53页 |
·抽象的GPU体系结构与执行模型 | 第53-55页 |
·GPU体系结构 | 第53-54页 |
·GPU执行模型 | 第54-55页 |
·量化的GPU性能评估模型 | 第55-68页 |
·GPGPU程序性能因素 | 第55-56页 |
·计算指令开销 | 第56-58页 |
·全局存储器访问开销 | 第58-60页 |
·局部存储器访问开销 | 第60-62页 |
·条件分支转移开销 | 第62-64页 |
·计算与访存重叠的影响 | 第64-66页 |
·同步开销 | 第66-67页 |
·总体性能模型 | 第67-68页 |
·实验及结果分析 | 第68-74页 |
·矩阵乘法 | 第69-71页 |
·并行前缀和 | 第71-73页 |
·误差分析与讨论 | 第73-74页 |
·本章小结 | 第74-75页 |
第4章 基于多面体模型的GPU存储优化 | 第75-97页 |
·引言 | 第75-76页 |
·相关工作 | 第76-77页 |
·GPU存储优化空间 | 第77-91页 |
·程序的多面体表示 | 第78-79页 |
·全局存储器访问模式检测 | 第79-82页 |
·全局存储器访问向量化 | 第82-85页 |
·数据空间变换 | 第85-87页 |
·快速存储器的分配与优化 | 第87-91页 |
·实验及结果分析 | 第91-96页 |
·全局存储器优化 | 第91-94页 |
·快速存储器分配与优化 | 第94-96页 |
·本章小结 | 第96-97页 |
第5章 面向GPU体系结构的程序重构 | 第97-121页 |
·引言 | 第97-98页 |
·相关工作 | 第98页 |
·基于循环-数组矩阵的程序重构 | 第98-115页 |
·动机 | 第98-100页 |
·基本思想 | 第100-102页 |
·程序重构的形式化方法 | 第102-113页 |
·实验评测 | 第113-115页 |
·条件分支重构 | 第115-120页 |
·条件分支对性能的影响 | 第115-117页 |
·分支重构 | 第117-119页 |
·实验评测 | 第119-120页 |
·本章小结 | 第120-121页 |
第6章 GPU加速的大规模生物序列比对 | 第121-137页 |
·引言 | 第121-122页 |
·相关工作 | 第122-123页 |
·算法描述与改进 | 第123-126页 |
·Smith-Waterman算法流程 | 第123-124页 |
·SWAT并行方式 | 第124-126页 |
·优化策略 | 第126-130页 |
·基于参数分析的分段优化 | 第126-127页 |
·基于缓冲区分块的读写延迟优化 | 第127-129页 |
·基于循环展开的指令优化 | 第129-130页 |
·数据传输优化 | 第130页 |
·基于条件执行的条件分支优化 | 第130页 |
·实验分析 | 第130-136页 |
·与CPU版本的性能比较 | 第131-134页 |
·不同GPU上的性能比较 | 第134-135页 |
·横向性能比较 | 第135-136页 |
·本章小结 | 第136-137页 |
第7章 总结与展望 | 第137-140页 |
·本文工作总结 | 第137-138页 |
·进一步的工作 | 第138-140页 |
参考文献 | 第140-157页 |
致谢 | 第157-158页 |
攻读博士期间发表(录用)论文情况 | 第158-159页 |