摘要 | 第1-7页 |
ABSTRACT | 第7-17页 |
第1章 绪论 | 第17-27页 |
·研究背景 | 第17-19页 |
·半导体工艺的发展 | 第17页 |
·流处理器体系结构的发展 | 第17-18页 |
·处理器的分片式设计及其意义 | 第18-19页 |
·分片式流处理器设计的几个关键问题 | 第19-25页 |
·计算模型 | 第19-22页 |
·片上存储层次 | 第22-23页 |
·片上互连网络 | 第23页 |
·编程模型以及代码重用 | 第23-25页 |
·论文研究目标和主要工作 | 第25-26页 |
·论文结构 | 第26-27页 |
第2章 流处理器以及众核处理器相关研究工作 | 第27-44页 |
·Imagine和Storm处理器及其编程模型 | 第27-29页 |
·IBM的Cell处理器及其编程模型 | 第29-32页 |
·NVIDIA的GPU及其编程模型 | 第32-35页 |
·TRIPS和TFLEX | 第35-37页 |
·RAW和TILE64 | 第37-40页 |
·Intel的Polaris和Larabee处理器 | 第40-41页 |
·小结 | 第41-44页 |
第3章 流编程模型和程序计算模型 | 第44-61页 |
·程序执行模型 | 第44-45页 |
·TPA-PD的流编程模型 | 第45-49页 |
·StreamC语言 | 第45-46页 |
·KernelC语言 | 第46-49页 |
·TPA-PD的计算模型 | 第49-56页 |
·SBMD模型 | 第50-55页 |
·超块的执行 | 第55-56页 |
·TPA-PD的指令系统 | 第56-60页 |
·流级指令 | 第56-58页 |
·Kernel级指令 | 第58-60页 |
·小结 | 第60-61页 |
第4章 TPA-PD处理器的体系结构 | 第61-89页 |
·控制块(Control tile,CT) | 第62-65页 |
·主机接口 | 第62-63页 |
·记分板和发射单元 | 第63-64页 |
·块引擎 | 第64-65页 |
·执行块(Execution tile,ET) | 第65-70页 |
·保留站 | 第66页 |
·算术、逻辑单元 | 第66-70页 |
·寄存器块(Register Tile,RT) | 第70-72页 |
·指令块(Instruction Tile,IT) | 第72-73页 |
·数据块(Data Tile,DT) | 第73-74页 |
·流读写队列(slsq) | 第73页 |
·便签簿读写队列(sprwq) | 第73-74页 |
·本地块间数据依赖队列(lrwq) | 第74页 |
·存储块(Memory Tile,MT) | 第74-81页 |
·流访存部件(Stream Load/Store Unit,SU) | 第81-83页 |
·片上互连网络 | 第83-88页 |
·操作数传递网络(Operator Transfer Network,OTN) | 第83-84页 |
·指令传递网络(Instruction Dispatch Network,IDN) | 第84-85页 |
·全局控制网络(Global Control Network,GCN) | 第85-87页 |
·全局状态网络(Global Status Network,GSN) | 第87-88页 |
·流数据传递网络(Stream Transfer Network,STN) | 第88页 |
·小结 | 第88-89页 |
第5章 编译系统实现 | 第89-104页 |
·编译方案 | 第89-90页 |
·流级翻译器(Stream Level Translator,SLT) | 第90-91页 |
·Kernel级二进制翻译器(Kernel Level Binary Translator,KLBT) | 第91-104页 |
·设计概述 | 第91页 |
·指令解码 | 第91-92页 |
·还原控制流图 | 第92-94页 |
·还原数据流图 | 第94-97页 |
·指令翻译 | 第97-100页 |
·构建SBMD模型下的控制流图和数据流图 | 第100-101页 |
·指令调整和调度 | 第101-102页 |
·指令编码 | 第102-103页 |
·指令封装 | 第103页 |
·小结 | 第103-104页 |
第6章 处理器性能评测 | 第104-128页 |
·评测环境和Benchmark | 第104-110页 |
·TPA-PD的软件环境 | 第104-107页 |
·Benchmark | 第107-110页 |
·TPA-PD的超块资源 | 第110-111页 |
·TPA-PD的计算资源 | 第111-113页 |
·TPA-PD的片上网络资源 | 第113-116页 |
·TPA-PD的流访存部件 | 第116-118页 |
·优化超块的发射和提交 | 第118-120页 |
·指令调度算法 | 第120-122页 |
·TPA-PD和Imagine处理器的对比 | 第122-125页 |
·小结 | 第125-128页 |
第7章 全文总结 | 第128-132页 |
·研究工作总结 | 第128-129页 |
·本文创新点 | 第129-131页 |
·进一步的工作 | 第131-132页 |
参考文献 | 第132-138页 |
致谢 | 第138-139页 |
在读期间发表的学术论文与取得的研究成果 | 第139-141页 |
在读期间参与的科研项目 | 第141-142页 |