首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--电子数字计算机(不连续作用电子计算机)论文--运算器和控制器(CPU)论文

ATLAS在龙芯2F上的访存优化

摘要第1-4页
ABSTRACT第4-8页
第一章 绪论第8-23页
   ·BLAS 介绍第8-18页
     ·BLAS 的数据结构第8-14页
     ·BLAS 子函数第14-17页
     ·BLAS 的重要参数第17页
     ·BLAS 优化现状第17-18页
   ·龙芯2F 体系结构第18-21页
     ·乱序执行第19-20页
     ·浮点部件第20页
     ·Cache 的组织第20-21页
     ·内存管理第21页
   ·本文的研究内容和技术第21-22页
   ·本文结构第22-23页
第二章 代码优化方法第23-35页
   ·循环展开第23-26页
     ·循环展开因子第24-25页
     ·指令调度第25-26页
   ·加快内存访问第26-28页
   ·减少cache 失效第28-34页
     ·数据预取第28页
     ·数据分块第28-29页
     ·部分拷贝第29-34页
   ·小结第34-35页
第三章 ATLAS 二级函数的优化第35-52页
   ·二级函数的分类第35-36页
   ·BLAS2 的计算方式第36-39页
     ·非对称/非共轭第36-38页
     ·对称/共轭第38-39页
   ·优化过程第39-50页
     ·GEMV 的优化第39-46页
     ·HEMV 的优化第46-50页
   ·小结第50-52页
第四章 GEMM 的优化第52-60页
   ·BLAS3 的计算方式第52-54页
     ·SYMM/HEMM第52页
     ·SYRK/HERK/SYR2K/HER2K第52-54页
     ·TRMM/TRSM第54页
   ·GEMM 的优化第54-58页
     ·循环展开第55-56页
     ·指令调度第56页
     ·矩阵分块和部分拷贝第56-57页
     ·sgemm 的性能第57-58页
   ·小结第58-60页
第五章 总结和展望第60-62页
   ·本文总结第60-61页
   ·存在问题与研究展望第61-62页
参考文献第62-66页
致谢第66-67页
在读期间发表的学术论文与取得的研究成果第67页

论文共67页,点击 下载论文
上一篇:分片式处理器上非均匀一致缓存的设计与优化
下一篇:用形式化方法构建安全的线程机制