众核GPU体系结构相关技术研究

目录	第1-7页
摘要	第7-9页
Abstract	第9-12页
第1章绪论	第12-33页
·研究背景	第12-15页
·数据并行应用的需求	第12-14页
·CPU体系结构面临的问题	第14-15页
·VLSI技术的特点	第15页
·GPU体系结构的并行机制	第15-20页
·并行计算模型	第15-17页
·GPU体系结构的特性	第17-18页
·GPU与多核体系结构的区别	第18-19页
·GPU与向量体系结构的区别	第19-20页
·相关研究	第20-29页
·GPU体系结构的演变	第20-23页
·GPU编程模型的发展	第23-25页
·GPGPU研究进展	第25-29页
·论文工作	第29-31页
·研究意义	第29-30页
·研究目标	第30-31页
·本文的创新点	第31页
·论文结构	第31-33页
第2章 GPU体系结构与编程模型	第33-50页
·多核CPU-众核GPU异构系统的优势	第33-35页
·主流GPGPU技术	第35-43页
·AMD/ATISTREAM~TM技术	第35-38页
·NVIDIA CUDA~TM技术	第38-42页
·两种GPGPU技术对比	第42-43页
·OPENCL:跨平台的多核与众核编程模型	第43-46页
·平台模型	第44页
·执行模型	第44-45页
·存储模型	第45页
·编程模型	第45-46页
·数据并行体系结构	第46-49页
·本章小结	第49-50页
第3章 GPGPU量化性能模型	第50-75页
·引言	第50-51页
·相关工作	第51-53页
·抽象的GPU体系结构与执行模型	第53-55页
·GPU体系结构	第53-54页
·GPU执行模型	第54-55页
·量化的GPU性能评估模型	第55-68页
·GPGPU程序性能因素	第55-56页
·计算指令开销	第56-58页
·全局存储器访问开销	第58-60页
·局部存储器访问开销	第60-62页
·条件分支转移开销	第62-64页
·计算与访存重叠的影响	第64-66页
·同步开销	第66-67页
·总体性能模型	第67-68页
·实验及结果分析	第68-74页
·矩阵乘法	第69-71页
·并行前缀和	第71-73页
·误差分析与讨论	第73-74页
·本章小结	第74-75页
第4章基于多面体模型的GPU存储优化	第75-97页
·引言	第75-76页
·相关工作	第76-77页
·GPU存储优化空间	第77-91页
·程序的多面体表示	第78-79页
·全局存储器访问模式检测	第79-82页
·全局存储器访问向量化	第82-85页
·数据空间变换	第85-87页
·快速存储器的分配与优化	第87-91页
·实验及结果分析	第91-96页
·全局存储器优化	第91-94页
·快速存储器分配与优化	第94-96页
·本章小结	第96-97页
第5章面向GPU体系结构的程序重构	第97-121页
·引言	第97-98页
·相关工作	第98页
·基于循环-数组矩阵的程序重构	第98-115页
·动机	第98-100页
·基本思想	第100-102页
·程序重构的形式化方法	第102-113页
·实验评测	第113-115页
·条件分支重构	第115-120页
·条件分支对性能的影响	第115-117页
·分支重构	第117-119页
·实验评测	第119-120页
·本章小结	第120-121页
第6章 GPU加速的大规模生物序列比对	第121-137页
·引言	第121-122页
·相关工作	第122-123页
·算法描述与改进	第123-126页
·Smith-Waterman算法流程	第123-124页
·SWAT并行方式	第124-126页
·优化策略	第126-130页
·基于参数分析的分段优化	第126-127页
·基于缓冲区分块的读写延迟优化	第127-129页
·基于循环展开的指令优化	第129-130页
·数据传输优化	第130页
·基于条件执行的条件分支优化	第130页
·实验分析	第130-136页
·与CPU版本的性能比较	第131-134页
·不同GPU上的性能比较	第134-135页
·横向性能比较	第135-136页
·本章小结	第136-137页
第7章总结与展望	第137-140页
·本文工作总结	第137-138页
·进一步的工作	第138-140页
参考文献	第140-157页
致谢	第157-158页
攻读博士期间发表(录用)论文情况	第158-159页