X-DSP中除法单元及基本函数的研究与实现
【摘要】:X-DSP是一款自主研制的64位数据位宽DSP处理器。其采用超长指令字(VLIW)技术,主频为1GHz,可以同时派发11条指令。本文依托X-DSP内核的研究与开发,主要完成了内核中高性能除法单元的设计、验证与优化,以及内核中整个运算单元的时序优化工作。具体的研究内容和工作包括:1、以SRT-8除法算法为基础,设计除法单元的总体结构及指令集,在同一硬件结构上并行实现双精度浮点除法,SIMD双单精度浮点除法功能。针对传统除法迭代执行周期长,导致中断处理逻辑的硬件复杂剧增的问题,采用迭代切割技术,将迭代过程截断为三次指令完成(双精度为FSRT8D指令、SIMD双单精度为FSRT8S32指令),并设计了相应的浮点规格化指令(FNORMD、FNORMS32)。2、根据现有成熟的ASIC验证方法设计除法单元的验证方案,并准备其验证环境,对其进行基于模拟的验证方法,包括模块级验证、系统级验证和覆盖率分析。在一定的模拟验证的基础上,进行模拟-形式混合验证,快速定位BUG,缩短迭代周期,并且将测试集补充全面,提高验证覆盖率。3、对优化前的除法单元进行综合,并分析其综合结果报告,针对处在关键路径上的模块进行时序优化,同时结合实际情况对除法单元总体结构进行时序和面积优化,在45nmCMOS下,关键路径延迟降低了100ps,性能提高了18.2%,满足芯片的性能和面积要求。整体上结合后端物理设计,对内核整体运算部件时序进行优化,使其最终达到1GHz的设计目标。4、分析目前CORDIC算法的各种改进方法,研究出基于进位节省加法器(CSA)的低延迟CORDIC算法,并在此基础上实现一个计算三角函数和指数的旋转模式CORDIC多功能硬件电路。结果表明,在满足精度要求的前提下,相对于传统实现方式,整体性能提高了5倍,面积也减少了20.3%;总延迟比Parallel CORDIC降低44.8%,比Radix-4 CORDIC降低52.6%,比Redundant CORDIC降低31.6%。
【关键词】:数字信号处理器 SRT 除法单元 验证 优化 CORDIC 基本函数
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP332