首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--电子数字计算机(不连续作用电子计算机)论文--运算器和控制器(CPU)论文

面向SMP的模板计算访存优化研究

摘要第9-10页
ABSTRACT第10-11页
第一章 绪论第12-26页
    1.1 研究背景第12-16页
        1.1.1“存储墙”问题第12页
        1.1.2 访存优化第12-15页
        1.1.3 模板计算第15-16页
    1.2 模板计算的优化第16-19页
        1.2.1 并行化和向量化第16-17页
        1.2.2 循环变换第17-18页
        1.2.3 数据预取第18-19页
    1.3 研究内容及意义第19-23页
        1.3.1 研究内容第19-20页
        1.3.2 研究意义第20页
        1.3.3 研究平台第20-23页
    1.4 论文组织结构第23-26页
第二章 模板计算的并行化和循环变换第26-42页
    2.1 研究动机第26-31页
        2.1.1 多核多级Cache体系结构第26-27页
        2.1.2 循环变换与并行化第27-31页
    2.2 模板计算Loop Tiling的OpenMP并行化第31-37页
        2.2.1 Loop Tiling分块大小的计算第32页
        2.2.2 OpenMP并行化算法第32-36页
        2.2.3 算法可扩展性分析第36-37页
    2.3 实验结果与分析第37-40页
        2.3.1 分块大小计算与评测第37-38页
        2.3.2 并行算法性能第38-39页
        2.3.3 算法可扩展性第39-40页
    2.4 小结第40-42页
第三章 模板计算的向量化和向量重组第42-60页
    3.1 研究动机第42-45页
        3.1.1 多核多SIMD体系结构第42-43页
        3.1.2 向量化分析第43-45页
    3.2 模板计算的向量化第45-48页
        3.2.1 向量化模板计算第45-46页
        3.2.2 数据对齐第46-48页
    3.3 向量重组与向量重用第48-55页
        3.3.1 向量重组与向量重用第48页
        3.3.2 向量重组的实现方法第48-51页
        3.3.3 模板计算的向量重组和向量重用第51-55页
    3.4 实验结果与分析第55-59页
        3.4.1 模板计算的向量化性能测试第55-57页
        3.4.2 数据对齐对向量化的影响第57页
        3.4.3 向量重组的性能测试第57-59页
    3.5 小结第59-60页
第四章 模板计算的数据预取第60-74页
    4.1 研究动机第60-62页
        4.1.1 数据预取及其影响因素第60-61页
        4.1.2 多核多级Cache结构的数据预取第61-62页
    4.2 Intel X86_64 体系结构数据预取机制第62-67页
        4.2.1 硬件预取第62-63页
        4.2.2 软件预取第63-67页
    4.3 模板计算的数据预取优化第67-71页
        4.3.1 模板计算与数据预取第67-69页
        4.3.2 数据预取与循环变换第69-71页
    4.4 实验结果与分析第71-72页
    4.5 小结第72-74页
第五章 结束语第74-76页
    5.1 工作总结第74-75页
    5.2 工作展望第75-76页
致谢第76-78页
参考文献第78-86页
作者在学期间取得的学术成果第86页

论文共86页,点击 下载论文
上一篇:面向大规模数据中心网络性能评估关键技术研究与实现
下一篇:Benchmarking,Analysis and Optimization of In-Memory Databases