面积带宽优化的嵌入式GPU可编程着色器体系结构研究

摘要	第1-5页
ABSTRACT	第5-7页
目录	第7-11页
第一章绪论	第11-25页
·研究背景	第12-19页
·嵌入式GPU的发展	第12-17页
·未来嵌入式GPU设计面临的挑战	第17-18页
·课题研究目标	第18-19页
·本文主要研究内容	第19-20页
·嵌入式GPU高层次全系统仿真平台	第19-20页
·面积优化的着色器浮点运算单元数据通路	第20页
·基于传输触发的嵌入式GPU着色器体系结构	第20页
·多着色器顶点拾取策略与Cache结构	第20页
·本文主要创新工作	第20-23页
·本文组织结构	第23-25页
第二章国内外研究现状	第25-36页
·嵌入式GPU可编程着色器体系结构	第25-30页
·顶点着色器体系结构研究	第25-28页
·统一着色器体系结构研究	第28-30页
·嵌入式GPU存储带宽优化	第30-34页
·顶点数据带宽优化	第31页
·纹理数据带宽优化	第31-33页
·渲染阶段存储带宽优化	第33-34页
·嵌入式GPU模拟仿真及性能分析方法	第34-35页
·国内研究近况	第35-36页
第三章嵌入式GPU高层次全系统仿真平台研究	第36-49页
·SoC快速仿真平台构建	第37-40页
·基于QEMU的指令集仿真器	第37-38页
·基于SystemC TLM的硬件模块建模	第38-39页
·SoC混合仿真平台构建	第39-40页
·基于多统一着色器的嵌入式GPU体系结构建模	第40-45页
·基于多统一着色器的嵌入式GPU体系结构	第41-42页
·嵌入式GPU周期级体系结构模型	第42-45页
·嵌入式GPU仿真器的系统集成	第45页
·嵌入式GPU软-硬件协同仿真	第45-48页
·本章小结	第48-49页
第四章面积优化的着色器运算单元数据通路研究	第49-69页
·统一浮点向量运算单元数据通路	第49-56页
·改进DP4单元基本结构	第50-52页
·DP4数据通路结构改进	第52-56页
·浮点标量特殊功能单元数据通路	第56-65页
·SFU与顶点着色器	第56-58页
·改进的二次多项式近似算法实现	第58-59页
·二次多项式系数生成	第59-62页
·改进的SFU数据通路设计	第62-65页
·实验结果分析	第65-68页
·多功能统一浮点向量运算单元	第65-66页
·精简的浮点特殊功能单元	第66-68页
·本章小结	第68-69页
第五章基于传输触发的可编程着色器体系结构研究	第69-92页
·传输触发体系结构	第69-72页
·基于传输触发的顶点着色器基本结构	第72-77页
·顶点着色器总体结构	第72-73页
·功能单元配置	第73-75页
·寄存器端口配置	第75-76页
·结果重排机制	第76-77页
·传输触发可编程着色器微结构优化	第77-82页
·并行性发掘	第78-79页
·互连结构复杂度优化	第79-82页
·实验结果与分析	第82-87页
·实验环境建立	第82-83页
·着色性能评价与分析	第83-85页
·硬件实现结果	第85-87页
·FPGA原型系统设计	第87-90页
·本章小结	第90-92页
第六章多统一着色器顶点拾取策略和顶点缓存结构	第92-112页
·面向图元的顶点拾取策略	第92-95页
·多着色器下顶点Cache结构	第95-105页
·Pre-TnL顶点Cache结构	第96-98页
·Post-TnL顶点Cache结构优化	第98-103页
·顶点Cache与面向图元顶点拾取	第103-105页
·实验结果与分析	第105-110页
·实验环境建立	第105页
·结果分析	第105-109页
·硬件逻辑开销	第109-110页
·本章小结	第110-112页
第七章总结与展望	第112-115页
·本文工作总结	第112-114页
·工作展望	第114-115页
参考文献	第115-124页
发表论文和参加科研情况说明	第124-125页
致谢	第125-126页