基于GPU的Turbo译码实现技术的研究

【摘要】：LTE(Long Term Evolution,长期演进)以其高速上下行传输速率、低误码率以及良好的边缘效应而受到下一代通信标准的青睐,并选其为3.9G通信标准技术。LTE采用的关键技术主要包括OFDM(Orthogonal Frequency Division Multiplexing,正交频分复用技术),Turbo编译码以及MIMO(Multi-input Multi-output,多输入多输出技术)。其中Turbo译码过程由于其译码过程复杂、运算量大而成为通信研究的热点问题之一。通信算法往往具备一致的方向性、实时流动性和数据流处理的一致性等特点,对通信数据的处理适于在流体系结构上完成。图形处理器(GPU)作为一种典型的流体系结构实现,相对于ASIC或FPGA,在处理通信算法方面具有成本低、可编程好、灵活性高的优势。目前,在GPU上进行Turbo译码实现的研究还非常少,因此研究Turbo译码在GPU上的实现与优化具有重要意义。本文详细分析了Turbo码的结构特点及其编译码算法,深入挖掘了算法的并行性,充分探讨了GPU的并行编程架构。在此基础上,将Turbo编译码算法映射到GPU上,并在算法和体系结构上进行优化,使得其误码率和吞吐率达到理想的效果。实验结果表明,在CUDA编程结构下,通过采用基四算法和分支度量,合理分配和使用共享内存,利用合并对齐进行全局访存,可显著提高GPU的译码性能。针对分块使得误码率升高的问题,提出了一种先前迭代初始化的保护机制,通过利用先前迭代过程产生的数据来预测当前子块的初始值,通过这种方法,可以使得译码器在保证高吞吐率的前提下,其误码率大大减小。对比在CPU中的译码实现,在逼近香农极限的信噪比下,利用GPU译码可以获得10倍以上吞吐率提升,同时误码率也能控制在相当低的程度。实验证明,Turbo译码在GPU上是可行的,通过在算法和GPU结构上进行优化,能够获得与ASIC和FPGA实现相当的性能。
【关键词】：Turbo译码 GPU BCJR算法 基四
【学位级别】：硕士
【学位授予年份】：2013
【分类号】：TN911.22