面积带宽优化的嵌入式GPU可编程着色器体系结构研究
摘要 | 第1-5页 |
ABSTRACT | 第5-7页 |
目录 | 第7-11页 |
第一章 绪论 | 第11-25页 |
·研究背景 | 第12-19页 |
·嵌入式GPU的发展 | 第12-17页 |
·未来嵌入式GPU设计面临的挑战 | 第17-18页 |
·课题研究目标 | 第18-19页 |
·本文主要研究内容 | 第19-20页 |
·嵌入式GPU高层次全系统仿真平台 | 第19-20页 |
·面积优化的着色器浮点运算单元数据通路 | 第20页 |
·基于传输触发的嵌入式GPU着色器体系结构 | 第20页 |
·多着色器顶点拾取策略与Cache结构 | 第20页 |
·本文主要创新工作 | 第20-23页 |
·本文组织结构 | 第23-25页 |
第二章 国内外研究现状 | 第25-36页 |
·嵌入式GPU可编程着色器体系结构 | 第25-30页 |
·顶点着色器体系结构研究 | 第25-28页 |
·统一着色器体系结构研究 | 第28-30页 |
·嵌入式GPU存储带宽优化 | 第30-34页 |
·顶点数据带宽优化 | 第31页 |
·纹理数据带宽优化 | 第31-33页 |
·渲染阶段存储带宽优化 | 第33-34页 |
·嵌入式GPU模拟仿真及性能分析方法 | 第34-35页 |
·国内研究近况 | 第35-36页 |
第三章 嵌入式GPU高层次全系统仿真平台研究 | 第36-49页 |
·SoC快速仿真平台构建 | 第37-40页 |
·基于QEMU的指令集仿真器 | 第37-38页 |
·基于SystemC TLM的硬件模块建模 | 第38-39页 |
·SoC混合仿真平台构建 | 第39-40页 |
·基于多统一着色器的嵌入式GPU体系结构建模 | 第40-45页 |
·基于多统一着色器的嵌入式GPU体系结构 | 第41-42页 |
·嵌入式GPU周期级体系结构模型 | 第42-45页 |
·嵌入式GPU仿真器的系统集成 | 第45页 |
·嵌入式GPU软-硬件协同仿真 | 第45-48页 |
·本章小结 | 第48-49页 |
第四章 面积优化的着色器运算单元数据通路研究 | 第49-69页 |
·统一浮点向量运算单元数据通路 | 第49-56页 |
·改进DP4单元基本结构 | 第50-52页 |
·DP4数据通路结构改进 | 第52-56页 |
·浮点标量特殊功能单元数据通路 | 第56-65页 |
·SFU与顶点着色器 | 第56-58页 |
·改进的二次多项式近似算法实现 | 第58-59页 |
·二次多项式系数生成 | 第59-62页 |
·改进的SFU数据通路设计 | 第62-65页 |
·实验结果分析 | 第65-68页 |
·多功能统一浮点向量运算单元 | 第65-66页 |
·精简的浮点特殊功能单元 | 第66-68页 |
·本章小结 | 第68-69页 |
第五章 基于传输触发的可编程着色器体系结构研究 | 第69-92页 |
·传输触发体系结构 | 第69-72页 |
·基于传输触发的顶点着色器基本结构 | 第72-77页 |
·顶点着色器总体结构 | 第72-73页 |
·功能单元配置 | 第73-75页 |
·寄存器端口配置 | 第75-76页 |
·结果重排机制 | 第76-77页 |
·传输触发可编程着色器微结构优化 | 第77-82页 |
·并行性发掘 | 第78-79页 |
·互连结构复杂度优化 | 第79-82页 |
·实验结果与分析 | 第82-87页 |
·实验环境建立 | 第82-83页 |
·着色性能评价与分析 | 第83-85页 |
·硬件实现结果 | 第85-87页 |
·FPGA原型系统设计 | 第87-90页 |
·本章小结 | 第90-92页 |
第六章 多统一着色器顶点拾取策略和顶点缓存结构 | 第92-112页 |
·面向图元的顶点拾取策略 | 第92-95页 |
·多着色器下顶点Cache结构 | 第95-105页 |
·Pre-TnL顶点Cache结构 | 第96-98页 |
·Post-TnL顶点Cache结构优化 | 第98-103页 |
·顶点Cache与面向图元顶点拾取 | 第103-105页 |
·实验结果与分析 | 第105-110页 |
·实验环境建立 | 第105页 |
·结果分析 | 第105-109页 |
·硬件逻辑开销 | 第109-110页 |
·本章小结 | 第110-112页 |
第七章 总结与展望 | 第112-115页 |
·本文工作总结 | 第112-114页 |
·工作展望 | 第114-115页 |
参考文献 | 第115-124页 |
发表论文和参加科研情况说明 | 第124-125页 |
致谢 | 第125-126页 |