首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

GPGPU下机器学习相关算法的高性能实现与研究

摘要第4-5页
ABSTRACT第5页
第一章 引言第9-14页
    1.1 研究原因第10-12页
        1.1.1 机器学习算法的实现与研究第10-11页
        1.1.2 大量训练数据的挑战与机遇第11-12页
    1.2 研究现状第12-14页
        1.2.1 机器学习算法的应用场景第12-13页
        1.2.2 目前GPGPU机器学习算法实现第13-14页
第二章 CUDA与GPGPU运算第14-21页
    2.1 并行计算模型第14-17页
        2.1.1 并行硬件体系结构第14-16页
        2.1.2 并行模型和语言第16-17页
    2.2 CUDA编程第17-19页
        2.2.1 CUDA程序的结构第17-18页
        2.2.2 CUDA中的Grid, Block, Thread第18-19页
        2.2.3 CUDA中的存储单元第19页
    2.3 CUDA编程的优化技巧第19-21页
        2.3.1 在CUDA实现算法的注意事项第19-20页
        2.3.2 在CUDA实现算法的存储器注意事项第20-21页
第三章 哼唱搜索与动态时间规整算法实现与效果第21-40页
    3.1 哼唱搜索系统的架构第21-22页
    3.2 哼唱搜索的音高提取算法第22-23页
    3.3 哼唱搜索的匹配算法第23-26页
        3.3.1 动态时间规整第23-25页
        3.3.2 线性缩放第25-26页
        3.3.3 动态时间规整与线性缩放算法的效果对比第26页
    3.4 多显卡实现架构第26-27页
    3.5 算法实现细节与方法第27-33页
        3.5.1 哼唱数据库的多显卡分发第27-28页
        3.5.2 哼唱任务的多显卡分发第28页
        3.5.3 如何做哼唱音高偏移第28-29页
        3.5.4 通用任务求解流程第29-30页
        3.5.5 显卡选择方法第30页
        3.5.6 简单的多显卡动态时间规整算法实现第30-31页
        3.5.7 多显卡动态时间规整的优化实现第31-33页
    3.6 实现效果对比第33-40页
        3.6.1 实验设计第33页
        3.6.2 动态时间规整计算时间加速第33-34页
        3.6.3 动态时间规整计算显存占用对比第34-35页
        3.6.4 实现结论第35-40页
第四章 单机多显卡神经网络GPGPU实现与效果第40-57页
    4.1 感知器第40-43页
        4.1.1 什么是感知器第40-42页
        4.1.2 感知器如何学习第42-43页
        4.1.3 感知器的局限性第43页
    4.2 多层神经网络第43-49页
        4.2.1 Logistics回归第44-46页
        4.2.2 多层神经网络的模型第46-48页
        4.2.3 多层神经网络学习第48-49页
    4.3 深度学习第49-52页
        4.3.1 为什么要深度?第49-50页
        4.3.2 深度学习的学习算法第50-52页
    4.4 使用Theano实现神经网络第52-53页
    4.5 多显卡并行第53页
    4.6 多显卡并行实现流程第53-55页
    4.7 实现效果第55-56页
    4.8 实验结论第56-57页
第五章 结论与展望第57-59页
    5.1 结论第57-58页
    5.2 展望第58-59页
参考文献第59-64页
发表论文和参加科研情况说明第64-65页
致谢第65-66页

论文共66页,点击 下载论文
上一篇:基于人工蜂群算法的软硬件划分算法研究
下一篇:谐振筒式液体密度传感器的研究