首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--电子数字计算机(不连续作用电子计算机)论文--运算器和控制器(CPU)论文

面向多核向量处理器BLAS库的设计与实现

摘要第1-11页
ABSTRACT第11-12页
第一章 绪论第12-20页
   ·课题研究背景及意义第12-13页
   ·BLAS函数库的研究现状第13-15页
   ·多核DSP研究现状与发展趋势第15-17页
   ·汇编程序优化技术介绍第17-18页
     ·软件流水第17页
     ·填充延时槽第17页
     ·指令级优化第17-18页
   ·算法测试流程第18-19页
   ·论文的组织结构第19-20页
第二章 X-DSP的体系结构和BLAS库简介第20-26页
   ·X-DSP的体系结构第20-22页
     ·X-DSP的多核体系结构第20页
     ·X-DSP的单核体系结构第20-21页
     ·X-DSP的DMA基本功能第21-22页
     ·X-DSP的存储结构第22页
   ·BLAS库第22-25页
     ·BLAS库的构成第22-23页
     ·BLAS函数库子函数第23-25页
   ·本章小结第25-26页
第三章 BLAS1汇编程序设计与实现第26-50页
   ·BLAS1算法概述第26-27页
   ·向量范数设计与实现第27-38页
     ·实向量范数的算法分析第27-29页
     ·实向量范数的算法设计与优化第29-32页
     ·复向量范数的算法分析第32-33页
     ·复向量范数的算法设计与优化第33-38页
   ·矩阵范数设计与实现第38-45页
     ·实矩阵范数的算法分析第38-39页
     ·实矩阵范数的算法设计与优化第39-41页
     ·复矩阵范数的算法分析第41-42页
     ·复矩阵范数的算法设计与优化第42-45页
   ·DDOT的设计与实现第45-47页
     ·DDOT的算法分析第45页
     ·DDOT的算法设计与优化第45-47页
   ·性能测试与分析第47-49页
   ·本章小结第49-50页
第四章 BLAS2汇编程序设计与实现第50-79页
   ·BLAS2算法概述第50页
   ·GEMV的实现第50-59页
     ·GEMV的算法分析第50-52页
     ·GEMV的算法设计与实现第52-59页
   ·SUM_MV的实现第59-63页
     ·SUM_MV的算法分析第59页
     ·SUM_MV的算法设计与实现第59-63页
   ·GER的实现第63-67页
     ·GER的算法分析第63-65页
     ·GER的算法设计与实现第65-67页
   ·TRMV的实现第67-72页
     ·TRMV的算法分析第67-69页
     ·TRMV的算法设计与实现第69-72页
   ·TRSV的实现第72-75页
     ·TRSV的算法分析第72-73页
     ·TRSV的算法设计与实现第73-75页
   ·性能测试与分析第75-78页
   ·本章小结第78-79页
第五章 BLAS2的多核设计与实现第79-90页
   ·GEMV的并行性分析第79-80页
   ·GEMV的多核设计与实现第80-82页
   ·SUM_MV的多核设计与实现第82-83页
   ·GER的多核设计与实现第83-85页
   ·TRMV的多核设计与实现第85-86页
   ·TRSV的多核设计与实现第86-88页
   ·性能测试与分析第88-89页
     ·GEMV的多核性能测试与分析第88页
     ·BLAS2的多核性能测试与分析第88-89页
   ·本章小结第89-90页
第六章 结束语第90-92页
   ·论文工作总结第90-91页
   ·后续工作与展望第91-92页
致谢第92-94页
参考文献第94-97页
作者在学期间取得的学术成果第97页

论文共97页,点击 下载论文
上一篇:面向大数据处理的多核处理器Cache一致性协议
下一篇:面向流媒体应用的存储控制器研究与设计