首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

面向GPU计算平台的若干并行优化关键技术研究

摘要第1-7页
Abstract第7-9页
目录第9-12页
1 绪论第12-24页
   ·研究背景第12-14页
   ·国内外研究现状第14-17页
   ·本文研究内容第17-20页
     ·GPU性能优化指导模型第18-19页
     ·非规则应用在GPU上的实现与优化第19-20页
   ·本文主要贡献与创新第20-21页
   ·本文组织结构第21-24页
2 GPU体系架构与编程模型第24-38页
   ·GPU与CPU架构的区别第24-25页
   ·当前主流GPU体系架构第25-31页
     ·NVIDIA Fermi架构第25-28页
     ·AMD Cypress架构第28-29页
     ·两种架构的异同第29-31页
   ·GPU编程模型第31-35页
     ·CUDA编程模型第31-32页
     ·OpenCL:跨平台的异构编程模型第32-35页
   ·GPU程序性能优化分析第35-36页
   ·本章小结第36-38页
3 GPURoofline:一个可视化的GPU性能优化指导模型第38-66页
   ·计算密集型kernel与访存密集型kernel第39-41页
   ·性能优化链第41-55页
     ·绝对性能优化链第42-49页
     ·相对性能优化链第49-55页
   ·数据本地化第55-58页
   ·GPURoofline:可视化性能优化指导模型第58-63页
     ·初始模型第59-60页
     ·完整性能模型的构建第60-63页
     ·性能优化指导原则第63页
   ·本章小结第63-66页
4 GPURoofline模型应用第66-88页
   ·实验环境的搭建第66-68页
   ·矩阵转置算法第68-72页
     ·算法概述第68页
     ·算法优化第68-71页
     ·性能分析第71-72页
   ·图像拉普拉斯变换算法第72-79页
     ·算法概述第73-74页
     ·算法优化第74-77页
     ·性能分析第77-79页
   ·图像积分图算法第79-86页
     ·算法概述第79-80页
     ·算法优化第80-85页
     ·性能分析第85-86页
   ·本章小结第86-88页
5 Viola-Jones人脸检测算法在GPU上的实现与优化第88-114页
   ·Viola-Jones人脸检测算法介绍第89-95页
     ·Haar特征值第90-92页
     ·Adaboost训练分类器第92-94页
     ·级联分类器应用第94-95页
   ·并行性分析第95-98页
     ·三级并行性第95-96页
     ·负载不均衡分析第96-98页
   ·性能优化第98-106页
     ·粗粒度并行第98-100页
     ·Uberkernel第100-101页
     ·Persist Thread第101-103页
     ·本地队列第103-105页
     ·全局队列第105-106页
     ·其他优化方法第106页
   ·性能结果与分析第106-112页
     ·实验平台的搭建第107-108页
     ·正确性验证第108-109页
     ·性能结果与分析第109-112页
   ·本章小结第112-114页
6 结论与展望第114-118页
   ·本文工作总结第114-115页
   ·研究展望第115-118页
参考文献第118-126页
致谢第126-128页
个人简历第128-129页
读博期间发表的学术论文第129-130页
参与的科研项目第130页

论文共130页,点击 下载论文
上一篇:基于海量文本的语义构建方法研究
下一篇:正海磁性材料有限公司生产物流系统优化研究