首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--模式识别与装置论文

基于深度学习的视频描述技术研究与应用

摘要第4-6页
Abstract第6-8页
第一章 绪论第17-29页
    1.1 研究背景以及意义第17-18页
    1.2 研究现状第18-24页
        1.2.1 早期研究方法第18-19页
        1.2.2 采用深度学习的方法第19-24页
    1.3 研究内容与组织结构第24-29页
        1.3.1 研究内容及成果第24-26页
        1.3.2 组织结构第26-29页
第二章 基础知识第29-39页
    2.1 卷积神经网络第29-35页
        2.1.1 卷积神经网络第29-32页
        2.1.2 AlexNet深度网络第32-33页
        2.1.3 VGG深度网络第33页
        2.1.4 ResNet深度网络第33-34页
        2.1.5 C3D深度网络第34-35页
    2.2 循环神经网络第35-37页
        2.2.1 循环神经网络第35页
        2.2.2 长短时记忆神经网络第35-37页
        2.2.3 加入监督信息的长短时记忆网络第37页
    2.3 本章小结第37-39页
第三章 首单元输入的视频描述模型第39-49页
    3.1 引言第39-40页
    3.2 模型第40-41页
    3.3 实验第41-45页
        3.3.1 数据集第41-43页
            3.3.1.1 Youtube2Text数据集第42页
            3.3.1.2 MPII-MD数据集第42-43页
        3.3.2 预处理第43页
        3.3.3 实验设置第43页
        3.3.4 对比模型第43-44页
        3.3.5 评测指标第44-45页
            3.3.5.1 SVO正确率第44页
            3.3.5.2 BLEU评测第44页
            3.3.5.3 METEOR评测第44-45页
    3.4 结果对比与分析第45-48页
        3.4.1 SVO正确率评测结果第45-46页
        3.4.2 BLEU与METEOR评测结果第46-47页
            3.4.2.1 Youtube2Text数据集第46页
            3.4.2.2 MPII-MD数据集第46-47页
        3.4.3 生成结果第47-48页
    3.5 本章总结第48-49页
第四章 加入主谓宾监督信息的视频描述模型第49-56页
    4.1 引言第49页
    4.2 模型第49-51页
    4.3 实验第51-53页
        4.3.1 预处理第51页
        4.3.2 实验设置第51-52页
        4.3.3 对比模型第52页
        4.3.4 评测指标第52页
        4.3.5 α值的讨论第52-53页
    4.4 结果对比与分析第53-55页
        4.4.1 SVO正确率第53页
        4.4.2 机器翻译评测方法结果第53-54页
        4.4.3 生成结果第54-55页
    4.5 本章小结第55-56页
第五章 视觉和文本相融合的模型第56-70页
    5.1 引言第56-57页
    5.2 模型第57-59页
    5.3 实验第59-61页
        5.3.1 数据集第59-60页
        5.3.2 预处理第60页
        5.3.3 实验设置第60页
        5.3.4 对比模型第60-61页
        5.3.5 参数讨论第61页
    5.4 结果对比第61-64页
        5.4.1 SVO正确率第62页
        5.4.2 BLEU-4评测和METEOR评测第62-64页
            5.4.2.1 Youtube2Text数据集第62-64页
            5.4.2.2 LSMDC评测第64页
    5.5 分析第64-68页
        5.5.1 评测结果第65页
        5.5.2 训练误差曲线图第65-66页
        5.5.3 可视化第66-68页
        5.5.4 生成结果第68页
    5.6 本章小结第68-70页
第六章 基于同步交叉注意力的图像描述模型第70-87页
    6.1 引言第70-71页
    6.2 模型第71-76页
        6.2.1 问题形式化第72页
        6.2.2 三种注意力信息的提取方式第72-74页
            6.2.2.1 SIA注意力第73页
            6.2.2.2 SPA注意力第73-74页
            6.2.2.3 SCA注意力第74页
        6.2.3 融合策略第74-75页
        6.2.4 IC-SCA模型结构第75-76页
    6.3 实验第76-80页
        6.3.1 数据集第76-77页
        6.3.2 预处理第77页
        6.3.3 实验设置第77-78页
        6.3.4 对比模型第78页
        6.3.5 实验参数讨论第78-80页
            6.3.5.1 权值讨论第78-79页
            6.3.5.2 学习率讨论第79-80页
            6.3.5.3 隐含层单元个数讨论第80页
    6.4 结果对比与分析第80-86页
        6.4.1 结果对比第80-81页
        6.4.2 分析第81-86页
            6.4.2.1 融合策略分析第82页
            6.4.2.2 注意力分析第82-83页
            6.4.2.3 生成结果第83-84页
            6.4.2.4 注意力可视化第84-85页
            6.4.2.5 模型可视化第85-86页
    6.5 本章小结第86-87页
第七章 系统演示第87-95页
    7.1 系统设计概要第87-88页
        7.1.1 手机端应用第87-88页
        7.1.2 网页展示第88页
    7.2 模块设计与实现第88-92页
        7.2.1 应用端表示层第88-90页
        7.2.2 网页端表示层第90页
        7.2.3 服务器处理层第90-92页
    7.3 系统演示第92-93页
        7.3.1 “盲眼”手机应用第92页
        7.3.2 网页展示系统第92-93页
    7.4 本章小结第93-95页
第八章 总结与展望第95-98页
    8.1 本文工作总结第95-96页
    8.2 下一步研究展望第96-98页
        8.2.1 关于视频特征提取第96页
        8.2.2 关于视觉和文本模态信息的融合第96-97页
        8.2.3 关于扩展任务:生成段落描述第97页
        8.2.4 关于扩展任务:生成段落描述第97-98页
参考文献第98-106页
附录 缩略词表第106-108页
致谢第108-109页
攻读学位期间发表的学术论文目录第109-110页
参加的科研项目第110页

论文共110页,点击 下载论文
上一篇:复杂气氛下PM1.0交变电凝并机理研究
下一篇:新型铁碳填料的制备与废水除磷性能研究