面向GPU计算平台的若干并行优化关键技术研究

摘要	第1-7页
Abstract	第7-9页
目录	第9-12页
1 绪论	第12-24页
·研究背景	第12-14页
·国内外研究现状	第14-17页
·本文研究内容	第17-20页
·GPU性能优化指导模型	第18-19页
·非规则应用在GPU上的实现与优化	第19-20页
·本文主要贡献与创新	第20-21页
·本文组织结构	第21-24页
2 GPU体系架构与编程模型	第24-38页
·GPU与CPU架构的区别	第24-25页
·当前主流GPU体系架构	第25-31页
·NVIDIA Fermi架构	第25-28页
·AMD Cypress架构	第28-29页
·两种架构的异同	第29-31页
·GPU编程模型	第31-35页
·CUDA编程模型	第31-32页
·OpenCL：跨平台的异构编程模型	第32-35页
·GPU程序性能优化分析	第35-36页
·本章小结	第36-38页
3 GPURoofline：一个可视化的GPU性能优化指导模型	第38-66页
·计算密集型kernel与访存密集型kernel	第39-41页
·性能优化链	第41-55页
·绝对性能优化链	第42-49页
·相对性能优化链	第49-55页
·数据本地化	第55-58页
·GPURoofline：可视化性能优化指导模型	第58-63页
·初始模型	第59-60页
·完整性能模型的构建	第60-63页
·性能优化指导原则	第63页
·本章小结	第63-66页
4 GPURoofline模型应用	第66-88页
·实验环境的搭建	第66-68页
·矩阵转置算法	第68-72页
·算法概述	第68页
·算法优化	第68-71页
·性能分析	第71-72页
·图像拉普拉斯变换算法	第72-79页
·算法概述	第73-74页
·算法优化	第74-77页
·性能分析	第77-79页
·图像积分图算法	第79-86页
·算法概述	第79-80页
·算法优化	第80-85页
·性能分析	第85-86页
·本章小结	第86-88页
5 Viola-Jones人脸检测算法在GPU上的实现与优化	第88-114页
·Viola-Jones人脸检测算法介绍	第89-95页
·Haar特征值	第90-92页
·Adaboost训练分类器	第92-94页
·级联分类器应用	第94-95页
·并行性分析	第95-98页
·三级并行性	第95-96页
·负载不均衡分析	第96-98页
·性能优化	第98-106页
·粗粒度并行	第98-100页
·Uberkernel	第100-101页
·Persist Thread	第101-103页
·本地队列	第103-105页
·全局队列	第105-106页
·其他优化方法	第106页
·性能结果与分析	第106-112页
·实验平台的搭建	第107-108页
·正确性验证	第108-109页
·性能结果与分析	第109-112页
·本章小结	第112-114页
6 结论与展望	第114-118页
·本文工作总结	第114-115页
·研究展望	第115-118页
参考文献	第118-126页
致谢	第126-128页
个人简历	第128-129页
读博期间发表的学术论文	第129-130页
参与的科研项目	第130页