众核GPU体系结构相关技术研究
| 目录 | 第1-7页 |
| 摘要 | 第7-9页 |
| Abstract | 第9-12页 |
| 第1章 绪论 | 第12-33页 |
| ·研究背景 | 第12-15页 |
| ·数据并行应用的需求 | 第12-14页 |
| ·CPU体系结构面临的问题 | 第14-15页 |
| ·VLSI技术的特点 | 第15页 |
| ·GPU体系结构的并行机制 | 第15-20页 |
| ·并行计算模型 | 第15-17页 |
| ·GPU体系结构的特性 | 第17-18页 |
| ·GPU与多核体系结构的区别 | 第18-19页 |
| ·GPU与向量体系结构的区别 | 第19-20页 |
| ·相关研究 | 第20-29页 |
| ·GPU体系结构的演变 | 第20-23页 |
| ·GPU编程模型的发展 | 第23-25页 |
| ·GPGPU研究进展 | 第25-29页 |
| ·论文工作 | 第29-31页 |
| ·研究意义 | 第29-30页 |
| ·研究目标 | 第30-31页 |
| ·本文的创新点 | 第31页 |
| ·论文结构 | 第31-33页 |
| 第2章 GPU体系结构与编程模型 | 第33-50页 |
| ·多核CPU-众核GPU异构系统的优势 | 第33-35页 |
| ·主流GPGPU技术 | 第35-43页 |
| ·AMD/ATISTREAM~TM技术 | 第35-38页 |
| ·NVIDIA CUDA~TM技术 | 第38-42页 |
| ·两种GPGPU技术对比 | 第42-43页 |
| ·OPENCL:跨平台的多核与众核编程模型 | 第43-46页 |
| ·平台模型 | 第44页 |
| ·执行模型 | 第44-45页 |
| ·存储模型 | 第45页 |
| ·编程模型 | 第45-46页 |
| ·数据并行体系结构 | 第46-49页 |
| ·本章小结 | 第49-50页 |
| 第3章 GPGPU量化性能模型 | 第50-75页 |
| ·引言 | 第50-51页 |
| ·相关工作 | 第51-53页 |
| ·抽象的GPU体系结构与执行模型 | 第53-55页 |
| ·GPU体系结构 | 第53-54页 |
| ·GPU执行模型 | 第54-55页 |
| ·量化的GPU性能评估模型 | 第55-68页 |
| ·GPGPU程序性能因素 | 第55-56页 |
| ·计算指令开销 | 第56-58页 |
| ·全局存储器访问开销 | 第58-60页 |
| ·局部存储器访问开销 | 第60-62页 |
| ·条件分支转移开销 | 第62-64页 |
| ·计算与访存重叠的影响 | 第64-66页 |
| ·同步开销 | 第66-67页 |
| ·总体性能模型 | 第67-68页 |
| ·实验及结果分析 | 第68-74页 |
| ·矩阵乘法 | 第69-71页 |
| ·并行前缀和 | 第71-73页 |
| ·误差分析与讨论 | 第73-74页 |
| ·本章小结 | 第74-75页 |
| 第4章 基于多面体模型的GPU存储优化 | 第75-97页 |
| ·引言 | 第75-76页 |
| ·相关工作 | 第76-77页 |
| ·GPU存储优化空间 | 第77-91页 |
| ·程序的多面体表示 | 第78-79页 |
| ·全局存储器访问模式检测 | 第79-82页 |
| ·全局存储器访问向量化 | 第82-85页 |
| ·数据空间变换 | 第85-87页 |
| ·快速存储器的分配与优化 | 第87-91页 |
| ·实验及结果分析 | 第91-96页 |
| ·全局存储器优化 | 第91-94页 |
| ·快速存储器分配与优化 | 第94-96页 |
| ·本章小结 | 第96-97页 |
| 第5章 面向GPU体系结构的程序重构 | 第97-121页 |
| ·引言 | 第97-98页 |
| ·相关工作 | 第98页 |
| ·基于循环-数组矩阵的程序重构 | 第98-115页 |
| ·动机 | 第98-100页 |
| ·基本思想 | 第100-102页 |
| ·程序重构的形式化方法 | 第102-113页 |
| ·实验评测 | 第113-115页 |
| ·条件分支重构 | 第115-120页 |
| ·条件分支对性能的影响 | 第115-117页 |
| ·分支重构 | 第117-119页 |
| ·实验评测 | 第119-120页 |
| ·本章小结 | 第120-121页 |
| 第6章 GPU加速的大规模生物序列比对 | 第121-137页 |
| ·引言 | 第121-122页 |
| ·相关工作 | 第122-123页 |
| ·算法描述与改进 | 第123-126页 |
| ·Smith-Waterman算法流程 | 第123-124页 |
| ·SWAT并行方式 | 第124-126页 |
| ·优化策略 | 第126-130页 |
| ·基于参数分析的分段优化 | 第126-127页 |
| ·基于缓冲区分块的读写延迟优化 | 第127-129页 |
| ·基于循环展开的指令优化 | 第129-130页 |
| ·数据传输优化 | 第130页 |
| ·基于条件执行的条件分支优化 | 第130页 |
| ·实验分析 | 第130-136页 |
| ·与CPU版本的性能比较 | 第131-134页 |
| ·不同GPU上的性能比较 | 第134-135页 |
| ·横向性能比较 | 第135-136页 |
| ·本章小结 | 第136-137页 |
| 第7章 总结与展望 | 第137-140页 |
| ·本文工作总结 | 第137-138页 |
| ·进一步的工作 | 第138-140页 |
| 参考文献 | 第140-157页 |
| 致谢 | 第157-158页 |
| 攻读博士期间发表(录用)论文情况 | 第158-159页 |