首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--模式识别与装置论文

基于时空注意力网络的视频问答

摘要第4-6页
Abstract第6-7页
第1章 绪论第13-19页
    1.1 课题背景第13-15页
    1.2 研究目的和本文主要工作第15-17页
    1.3 论文组织结构第17-18页
    1.4 本章小结第18-19页
第2章 国内外相关研究概述第19-32页
    2.1 视觉与文本特征学习方法第19-23页
        2.1.1 图像特征第19-21页
        2.1.2 视频特征第21-22页
        2.1.3 文本特征第22-23页
    2.2 智能问答常用模型框架第23-24页
    2.3 基于图像的智能问答方法第24-27页
        2.3.1 “该看哪”图像问答模型第25-26页
        2.3.2 “该听哪”图像问答模型第26-27页
    2.4 基于视频的智能问答方法第27-31页
        2.4.1 基于概率生成模型的视频问答方法第28-30页
        2.4.2 基于深度学习的视频问答方法第30-31页
    2.5 本章小结第31-32页
第3章 基于分层空-时域注意力网络的视频问答方法第32-53页
    3.1 模型总体结构第32-35页
    3.2 视觉和文本特征初始化第35-37页
        3.2.1 视频帧候选区域和特征提取第35-36页
        3.2.2 问答文本特征初始化第36-37页
    3.3 空间注意力机制视觉理解模块第37-41页
    3.4 问题与视频时域特征融合模块第41-48页
        3.4.1 基于Bi-GRU的视频帧编码第42-43页
        3.4.2 融合问题特征的时域注意力网络第43-46页
        3.4.3 学习视频时序敏感信息的Bi-aGRU网络第46-48页
    3.5 利用多步推理过程的优化模型第48-50页
    3.6 答案生成与模型训练第50-52页
        3.6.1 答案生成模型第50-51页
        3.6.2 模型训练策略第51-52页
    3.7 本章小结第52-53页
第4章 实验设计与结果分析第53-66页
    4.1 数据集准备第53-57页
        4.1.1 问答对生成第53-56页
        4.1.2 视频问答数据统计信息第56-57页
    4.2 实验环境和模型超参数设置第57-58页
    4.3 评价指标第58-60页
    4.4 视频问答对比实验与分析第60-65页
        4.4.1 对比模型概述第60-61页
        4.4.2 总体对比实验分析第61-62页
        4.4.3 不同问题类型实验分析第62-64页
        4.4.4 模型稳健性测试第64-65页
    4.5 本章小结第65-66页
第5章 视频问答系统设计与应用第66-74页
    5.1 视频问答系统架构概述第66-67页
    5.2 视频问答模型服务进程第67-69页
        5.2.1 模型部署第67-68页
        5.2.2 服务进程第68-69页
    5.3 视频问答Web服务第69页
    5.4 视频问答用户交互平台第69-72页
    5.5 系统测试第72页
    5.6 本章小结第72-74页
第6章 总结与展望第74-76页
    6.1 全文总结第74-75页
    6.2 未来研究方向第75-76页
参考文献第76-82页
攻读硕士学位期间主要的研究成果第82-83页
致谢第83页

论文共83页,点击 下载论文
上一篇:基于深度学习的阴道镜HSIL检测
下一篇:基于B/S架构的复杂三维模型的实时高真实感展示技术研究