摘要 | 第1-14页 |
ABSTRACT | 第14-16页 |
第一章 绪论 | 第16-40页 |
·研究背景 | 第16-23页 |
·高性能嵌入式应用的不断发展和演进 | 第16-18页 |
·超宽SIMD成为高端DSP的主流 | 第18-23页 |
·超宽SIMD DSP片上数据访存面临的问题和思考 | 第23-29页 |
·“存储墙”问题的产生和由来 | 第24-25页 |
·存储体的端口限制和不规则访存 | 第25-26页 |
·两维访存需求与一维存储空间约束 | 第26-27页 |
·片上并行存储机制及其前景思考 | 第27-29页 |
·研究现状 | 第29-36页 |
·存储体的组成方式 | 第29-30页 |
·存储空间的映射方式 | 第30-32页 |
·存储空间的表示方式 | 第32页 |
·并行存储机制设计实例 | 第32-33页 |
·减少并行存储机制的竞争 | 第33-34页 |
·数据混洗技术 | 第34-35页 |
·当前工作存在的问题 | 第35-36页 |
·本文的研究内容 | 第36-38页 |
·论文结构 | 第38-40页 |
第二章 模块数匹配的双线性偏斜2D存储机制 | 第40-56页 |
·相关研究工作 | 第40-41页 |
·理论阐述 | 第41-49页 |
·映射函数 | 第41-42页 |
·访问模式 | 第42-46页 |
·地址产生单元 | 第46-48页 |
·数据处理 | 第48页 |
·线性寻址和循环寻址 | 第48-49页 |
·硬件实现 | 第49-50页 |
·实验与评测 | 第50-55页 |
·存储模块面积开销 | 第50-52页 |
·控制逻辑面积开销 | 第52-54页 |
·控制逻辑时序开销 | 第54-55页 |
·本章小结 | 第55-56页 |
第三章 基于相邻访存数据重用的低功耗2D存储机制 | 第56-74页 |
·背景和动机 | 第56-61页 |
·滑窗类应用 | 第56-57页 |
·两种广泛采用的支持块访问的2D存储器 | 第57-60页 |
·LP2D的设计动机 | 第60-61页 |
·理论阐述 | 第61-67页 |
·定义与假设 | 第61-62页 |
·定理推导 | 第62-67页 |
·硬件实现 | 第67-69页 |
·实验与评测 | 第69-73页 |
·额外的硬件开销评估 | 第69-70页 |
·实验平台搭建 | 第70-71页 |
·实验结果 | 第71-73页 |
·本章小结 | 第73-74页 |
第四章 面向应用领域的多态并行存储方案 | 第74-91页 |
·背景和动机 | 第75-77页 |
·传统的SIMD处理器存储模型 | 第75-76页 |
·无线通讯和视频应用中的不规则访存分析 | 第76-77页 |
·面向应用领域的多态并行存储方案 | 第77-86页 |
·微体系结构 | 第77-83页 |
·访存指令 | 第83页 |
·编程示例 | 第83-86页 |
·实验与评测 | 第86-90页 |
·硬件实现开销 | 第86-87页 |
·实验平台 | 第87-88页 |
·实验结果 | 第88-90页 |
·本章小结 | 第90-91页 |
第五章 向量DMA Cache技术 | 第91-111页 |
·背景和动机 | 第92-95页 |
·超宽SIMD DSP中的DMA技术及数据流特征 | 第92-93页 |
·DMA Cache模型 | 第93-95页 |
·VDC的特征和技术环节 | 第95-99页 |
·分离的读请求Cache和写请求Cache | 第95页 |
·满行自动更新策略 | 第95-97页 |
·软件Cache一致性协议 | 第97-99页 |
·VDC的硬件实现 | 第99-102页 |
·VDC的硬件结构 | 第100-102页 |
·其它模块的修改 | 第102页 |
·实验与评测 | 第102-110页 |
·实验平台 | 第102-104页 |
·实验结果 | 第104-109页 |
·VDC硬件实现开销评估 | 第109页 |
·四种VM模型的综合比较 | 第109-110页 |
·本章小结 | 第110-111页 |
第六章 高效的可编程混洗单元及混洗矩阵奇偶划分方法 | 第111-131页 |
·具有高效混洗模式存储器的可编程洗单元 | 第113-116页 |
·整体结构 | 第113页 |
·高效混洗模式存储器的实现 | 第113-114页 |
·压缩混洗模式引入的时间开销分析 | 第114-115页 |
·混洗指令 | 第115-116页 |
·混洗矩阵奇偶划分方法 | 第116-126页 |
·基本定义及矩阵分块方法 | 第116-119页 |
·奇偶划分方法介绍 | 第119页 |
·奇偶划分方法的性质及证明 | 第119-124页 |
·基于奇偶划分方法的混洗机制 | 第124-126页 |
·实验与评测 | 第126-130页 |
·高效的可编程混洗单元的硬件开销和存储效率 | 第126-127页 |
·高效的可编程混洗单元对程序执行效率的提升 | 第127-128页 |
·奇偶划分方法在硬件开销方面的优势 | 第128-130页 |
·本章小结 | 第130-131页 |
第七章 超宽SIMD DSP原型芯片的实现与评估 | 第131-144页 |
·FT-Matrix系列DSP | 第131-135页 |
·FT-Matrix的整体结构 | 第131-132页 |
·软件模拟器FT-Matrix-Sim | 第132-133页 |
·多核版本FT-QMBase | 第133-134页 |
·FT-Matrix-2 | 第134-135页 |
·FT-Matrix的向量存储单元 | 第135-137页 |
·FT-Matrix的混洗单元 | 第137-139页 |
·本文提出的技术的应用情况和整体评估 | 第139-143页 |
·提出的技术在原型芯片中的应用情况 | 第139-140页 |
·提出的技术的整体评估 | 第140-143页 |
·本章小结 | 第143-144页 |
第八章 结论与展望 | 第144-148页 |
·本文的主要工作 | 第144-146页 |
·研究展望 | 第146-148页 |
致谢 | 第148-149页 |
参考文献 | 第149-160页 |
作者在学期间取得的学术成果 | 第160-163页 |