面向多核向量处理器BLAS库的设计与实现
摘要 | 第1-11页 |
ABSTRACT | 第11-12页 |
第一章 绪论 | 第12-20页 |
·课题研究背景及意义 | 第12-13页 |
·BLAS函数库的研究现状 | 第13-15页 |
·多核DSP研究现状与发展趋势 | 第15-17页 |
·汇编程序优化技术介绍 | 第17-18页 |
·软件流水 | 第17页 |
·填充延时槽 | 第17页 |
·指令级优化 | 第17-18页 |
·算法测试流程 | 第18-19页 |
·论文的组织结构 | 第19-20页 |
第二章 X-DSP的体系结构和BLAS库简介 | 第20-26页 |
·X-DSP的体系结构 | 第20-22页 |
·X-DSP的多核体系结构 | 第20页 |
·X-DSP的单核体系结构 | 第20-21页 |
·X-DSP的DMA基本功能 | 第21-22页 |
·X-DSP的存储结构 | 第22页 |
·BLAS库 | 第22-25页 |
·BLAS库的构成 | 第22-23页 |
·BLAS函数库子函数 | 第23-25页 |
·本章小结 | 第25-26页 |
第三章 BLAS1汇编程序设计与实现 | 第26-50页 |
·BLAS1算法概述 | 第26-27页 |
·向量范数设计与实现 | 第27-38页 |
·实向量范数的算法分析 | 第27-29页 |
·实向量范数的算法设计与优化 | 第29-32页 |
·复向量范数的算法分析 | 第32-33页 |
·复向量范数的算法设计与优化 | 第33-38页 |
·矩阵范数设计与实现 | 第38-45页 |
·实矩阵范数的算法分析 | 第38-39页 |
·实矩阵范数的算法设计与优化 | 第39-41页 |
·复矩阵范数的算法分析 | 第41-42页 |
·复矩阵范数的算法设计与优化 | 第42-45页 |
·DDOT的设计与实现 | 第45-47页 |
·DDOT的算法分析 | 第45页 |
·DDOT的算法设计与优化 | 第45-47页 |
·性能测试与分析 | 第47-49页 |
·本章小结 | 第49-50页 |
第四章 BLAS2汇编程序设计与实现 | 第50-79页 |
·BLAS2算法概述 | 第50页 |
·GEMV的实现 | 第50-59页 |
·GEMV的算法分析 | 第50-52页 |
·GEMV的算法设计与实现 | 第52-59页 |
·SUM_MV的实现 | 第59-63页 |
·SUM_MV的算法分析 | 第59页 |
·SUM_MV的算法设计与实现 | 第59-63页 |
·GER的实现 | 第63-67页 |
·GER的算法分析 | 第63-65页 |
·GER的算法设计与实现 | 第65-67页 |
·TRMV的实现 | 第67-72页 |
·TRMV的算法分析 | 第67-69页 |
·TRMV的算法设计与实现 | 第69-72页 |
·TRSV的实现 | 第72-75页 |
·TRSV的算法分析 | 第72-73页 |
·TRSV的算法设计与实现 | 第73-75页 |
·性能测试与分析 | 第75-78页 |
·本章小结 | 第78-79页 |
第五章 BLAS2的多核设计与实现 | 第79-90页 |
·GEMV的并行性分析 | 第79-80页 |
·GEMV的多核设计与实现 | 第80-82页 |
·SUM_MV的多核设计与实现 | 第82-83页 |
·GER的多核设计与实现 | 第83-85页 |
·TRMV的多核设计与实现 | 第85-86页 |
·TRSV的多核设计与实现 | 第86-88页 |
·性能测试与分析 | 第88-89页 |
·GEMV的多核性能测试与分析 | 第88页 |
·BLAS2的多核性能测试与分析 | 第88-89页 |
·本章小结 | 第89-90页 |
第六章 结束语 | 第90-92页 |
·论文工作总结 | 第90-91页 |
·后续工作与展望 | 第91-92页 |
致谢 | 第92-94页 |
参考文献 | 第94-97页 |
作者在学期间取得的学术成果 | 第97页 |