面向多核向量处理器BLAS库的设计与实现
| 摘要 | 第1-11页 |
| ABSTRACT | 第11-12页 |
| 第一章 绪论 | 第12-20页 |
| ·课题研究背景及意义 | 第12-13页 |
| ·BLAS函数库的研究现状 | 第13-15页 |
| ·多核DSP研究现状与发展趋势 | 第15-17页 |
| ·汇编程序优化技术介绍 | 第17-18页 |
| ·软件流水 | 第17页 |
| ·填充延时槽 | 第17页 |
| ·指令级优化 | 第17-18页 |
| ·算法测试流程 | 第18-19页 |
| ·论文的组织结构 | 第19-20页 |
| 第二章 X-DSP的体系结构和BLAS库简介 | 第20-26页 |
| ·X-DSP的体系结构 | 第20-22页 |
| ·X-DSP的多核体系结构 | 第20页 |
| ·X-DSP的单核体系结构 | 第20-21页 |
| ·X-DSP的DMA基本功能 | 第21-22页 |
| ·X-DSP的存储结构 | 第22页 |
| ·BLAS库 | 第22-25页 |
| ·BLAS库的构成 | 第22-23页 |
| ·BLAS函数库子函数 | 第23-25页 |
| ·本章小结 | 第25-26页 |
| 第三章 BLAS1汇编程序设计与实现 | 第26-50页 |
| ·BLAS1算法概述 | 第26-27页 |
| ·向量范数设计与实现 | 第27-38页 |
| ·实向量范数的算法分析 | 第27-29页 |
| ·实向量范数的算法设计与优化 | 第29-32页 |
| ·复向量范数的算法分析 | 第32-33页 |
| ·复向量范数的算法设计与优化 | 第33-38页 |
| ·矩阵范数设计与实现 | 第38-45页 |
| ·实矩阵范数的算法分析 | 第38-39页 |
| ·实矩阵范数的算法设计与优化 | 第39-41页 |
| ·复矩阵范数的算法分析 | 第41-42页 |
| ·复矩阵范数的算法设计与优化 | 第42-45页 |
| ·DDOT的设计与实现 | 第45-47页 |
| ·DDOT的算法分析 | 第45页 |
| ·DDOT的算法设计与优化 | 第45-47页 |
| ·性能测试与分析 | 第47-49页 |
| ·本章小结 | 第49-50页 |
| 第四章 BLAS2汇编程序设计与实现 | 第50-79页 |
| ·BLAS2算法概述 | 第50页 |
| ·GEMV的实现 | 第50-59页 |
| ·GEMV的算法分析 | 第50-52页 |
| ·GEMV的算法设计与实现 | 第52-59页 |
| ·SUM_MV的实现 | 第59-63页 |
| ·SUM_MV的算法分析 | 第59页 |
| ·SUM_MV的算法设计与实现 | 第59-63页 |
| ·GER的实现 | 第63-67页 |
| ·GER的算法分析 | 第63-65页 |
| ·GER的算法设计与实现 | 第65-67页 |
| ·TRMV的实现 | 第67-72页 |
| ·TRMV的算法分析 | 第67-69页 |
| ·TRMV的算法设计与实现 | 第69-72页 |
| ·TRSV的实现 | 第72-75页 |
| ·TRSV的算法分析 | 第72-73页 |
| ·TRSV的算法设计与实现 | 第73-75页 |
| ·性能测试与分析 | 第75-78页 |
| ·本章小结 | 第78-79页 |
| 第五章 BLAS2的多核设计与实现 | 第79-90页 |
| ·GEMV的并行性分析 | 第79-80页 |
| ·GEMV的多核设计与实现 | 第80-82页 |
| ·SUM_MV的多核设计与实现 | 第82-83页 |
| ·GER的多核设计与实现 | 第83-85页 |
| ·TRMV的多核设计与实现 | 第85-86页 |
| ·TRSV的多核设计与实现 | 第86-88页 |
| ·性能测试与分析 | 第88-89页 |
| ·GEMV的多核性能测试与分析 | 第88页 |
| ·BLAS2的多核性能测试与分析 | 第88-89页 |
| ·本章小结 | 第89-90页 |
| 第六章 结束语 | 第90-92页 |
| ·论文工作总结 | 第90-91页 |
| ·后续工作与展望 | 第91-92页 |
| 致谢 | 第92-94页 |
| 参考文献 | 第94-97页 |
| 作者在学期间取得的学术成果 | 第97页 |