| 摘要 | 第1-14页 |
| ABSTRACT | 第14-16页 |
| 第一章 绪论 | 第16-40页 |
| ·研究背景 | 第16-23页 |
| ·高性能嵌入式应用的不断发展和演进 | 第16-18页 |
| ·超宽SIMD成为高端DSP的主流 | 第18-23页 |
| ·超宽SIMD DSP片上数据访存面临的问题和思考 | 第23-29页 |
| ·“存储墙”问题的产生和由来 | 第24-25页 |
| ·存储体的端口限制和不规则访存 | 第25-26页 |
| ·两维访存需求与一维存储空间约束 | 第26-27页 |
| ·片上并行存储机制及其前景思考 | 第27-29页 |
| ·研究现状 | 第29-36页 |
| ·存储体的组成方式 | 第29-30页 |
| ·存储空间的映射方式 | 第30-32页 |
| ·存储空间的表示方式 | 第32页 |
| ·并行存储机制设计实例 | 第32-33页 |
| ·减少并行存储机制的竞争 | 第33-34页 |
| ·数据混洗技术 | 第34-35页 |
| ·当前工作存在的问题 | 第35-36页 |
| ·本文的研究内容 | 第36-38页 |
| ·论文结构 | 第38-40页 |
| 第二章 模块数匹配的双线性偏斜2D存储机制 | 第40-56页 |
| ·相关研究工作 | 第40-41页 |
| ·理论阐述 | 第41-49页 |
| ·映射函数 | 第41-42页 |
| ·访问模式 | 第42-46页 |
| ·地址产生单元 | 第46-48页 |
| ·数据处理 | 第48页 |
| ·线性寻址和循环寻址 | 第48-49页 |
| ·硬件实现 | 第49-50页 |
| ·实验与评测 | 第50-55页 |
| ·存储模块面积开销 | 第50-52页 |
| ·控制逻辑面积开销 | 第52-54页 |
| ·控制逻辑时序开销 | 第54-55页 |
| ·本章小结 | 第55-56页 |
| 第三章 基于相邻访存数据重用的低功耗2D存储机制 | 第56-74页 |
| ·背景和动机 | 第56-61页 |
| ·滑窗类应用 | 第56-57页 |
| ·两种广泛采用的支持块访问的2D存储器 | 第57-60页 |
| ·LP2D的设计动机 | 第60-61页 |
| ·理论阐述 | 第61-67页 |
| ·定义与假设 | 第61-62页 |
| ·定理推导 | 第62-67页 |
| ·硬件实现 | 第67-69页 |
| ·实验与评测 | 第69-73页 |
| ·额外的硬件开销评估 | 第69-70页 |
| ·实验平台搭建 | 第70-71页 |
| ·实验结果 | 第71-73页 |
| ·本章小结 | 第73-74页 |
| 第四章 面向应用领域的多态并行存储方案 | 第74-91页 |
| ·背景和动机 | 第75-77页 |
| ·传统的SIMD处理器存储模型 | 第75-76页 |
| ·无线通讯和视频应用中的不规则访存分析 | 第76-77页 |
| ·面向应用领域的多态并行存储方案 | 第77-86页 |
| ·微体系结构 | 第77-83页 |
| ·访存指令 | 第83页 |
| ·编程示例 | 第83-86页 |
| ·实验与评测 | 第86-90页 |
| ·硬件实现开销 | 第86-87页 |
| ·实验平台 | 第87-88页 |
| ·实验结果 | 第88-90页 |
| ·本章小结 | 第90-91页 |
| 第五章 向量DMA Cache技术 | 第91-111页 |
| ·背景和动机 | 第92-95页 |
| ·超宽SIMD DSP中的DMA技术及数据流特征 | 第92-93页 |
| ·DMA Cache模型 | 第93-95页 |
| ·VDC的特征和技术环节 | 第95-99页 |
| ·分离的读请求Cache和写请求Cache | 第95页 |
| ·满行自动更新策略 | 第95-97页 |
| ·软件Cache一致性协议 | 第97-99页 |
| ·VDC的硬件实现 | 第99-102页 |
| ·VDC的硬件结构 | 第100-102页 |
| ·其它模块的修改 | 第102页 |
| ·实验与评测 | 第102-110页 |
| ·实验平台 | 第102-104页 |
| ·实验结果 | 第104-109页 |
| ·VDC硬件实现开销评估 | 第109页 |
| ·四种VM模型的综合比较 | 第109-110页 |
| ·本章小结 | 第110-111页 |
| 第六章 高效的可编程混洗单元及混洗矩阵奇偶划分方法 | 第111-131页 |
| ·具有高效混洗模式存储器的可编程洗单元 | 第113-116页 |
| ·整体结构 | 第113页 |
| ·高效混洗模式存储器的实现 | 第113-114页 |
| ·压缩混洗模式引入的时间开销分析 | 第114-115页 |
| ·混洗指令 | 第115-116页 |
| ·混洗矩阵奇偶划分方法 | 第116-126页 |
| ·基本定义及矩阵分块方法 | 第116-119页 |
| ·奇偶划分方法介绍 | 第119页 |
| ·奇偶划分方法的性质及证明 | 第119-124页 |
| ·基于奇偶划分方法的混洗机制 | 第124-126页 |
| ·实验与评测 | 第126-130页 |
| ·高效的可编程混洗单元的硬件开销和存储效率 | 第126-127页 |
| ·高效的可编程混洗单元对程序执行效率的提升 | 第127-128页 |
| ·奇偶划分方法在硬件开销方面的优势 | 第128-130页 |
| ·本章小结 | 第130-131页 |
| 第七章 超宽SIMD DSP原型芯片的实现与评估 | 第131-144页 |
| ·FT-Matrix系列DSP | 第131-135页 |
| ·FT-Matrix的整体结构 | 第131-132页 |
| ·软件模拟器FT-Matrix-Sim | 第132-133页 |
| ·多核版本FT-QMBase | 第133-134页 |
| ·FT-Matrix-2 | 第134-135页 |
| ·FT-Matrix的向量存储单元 | 第135-137页 |
| ·FT-Matrix的混洗单元 | 第137-139页 |
| ·本文提出的技术的应用情况和整体评估 | 第139-143页 |
| ·提出的技术在原型芯片中的应用情况 | 第139-140页 |
| ·提出的技术的整体评估 | 第140-143页 |
| ·本章小结 | 第143-144页 |
| 第八章 结论与展望 | 第144-148页 |
| ·本文的主要工作 | 第144-146页 |
| ·研究展望 | 第146-148页 |
| 致谢 | 第148-149页 |
| 参考文献 | 第149-160页 |
| 作者在学期间取得的学术成果 | 第160-163页 |