基于深度学习的视频问答研究

摘要	第5-7页
abstract	第7-8页
第一章绪论	第12-19页
1.1 研究背景及意义	第12-13页
1.2 研究现状	第13-16页
1.2.1 视频描述生成	第14-15页
1.2.2 视觉问答	第15页
1.2.3 电影描述空白填空	第15-16页
1.3 本文工作及贡献	第16-19页
第二章分层的多层次注意力模型	第19-34页
2.1 单词层面的注意力机制	第20-21页
2.2 问题层面的注意力机制	第21-22页
2.3 方法流程	第22-29页
2.3.1 视频和问题特征提取	第23-24页
2.3.1.1 视频特征提取	第23-24页
2.3.1.2 问题特征提取	第24页
2.3.2 第一层	第24-27页
2.3.2.1 视频编码	第25页
2.3.2.2 问题编码	第25-26页
2.3.2.3 视频单词层面的注意力	第26-27页
2.3.3 第二层	第27页
2.3.4 注意力特征融合	第27-28页
2.3.5 空白处单词预测	第28-29页
2.4 实验	第29-33页
2.4.1 数据集简介	第29页
2.4.2 文本处理	第29-30页
2.4.3 视频处理	第30页
2.4.4 参数细节	第30-31页
2.4.5 评价标准	第31页
2.4.6 惩罚项系数的影响	第31-32页
2.4.7 与以前方法的对比	第32页
2.4.8 训练时间和损失函数值	第32-33页
2.5 本章小结	第33-34页
第三章分层的多层次多模态注意力模型	第34-50页
3.1 低层次注意力机制	第35-37页
3.1.1 单词层面的注意力机制	第35-36页
3.1.2 帧层面的注意力机制	第36-37页
3.2 高层次注意力机制	第37-39页
3.2.1 问题层面注意力机制	第37-38页
3.2.2 视频层面注意力机制	第38-39页
3.3 方法流程	第39-45页
3.3.1 视频及问题特征提取	第40页
3.3.2 单模态低层次注意力特征提取	第40-42页
3.3.3 单模态高层次注意力特征提取	第42-43页
3.3.4 单模态注意力融合	第43-44页
3.3.5 多模态注意力融合	第44-45页
3.3.6 空白处单词预测	第45页
3.4 实验	第45-49页
3.4.1 数据集	第45页
3.4.2 数据处理	第45-46页
3.4.3 评价标准	第46页
3.4.4 实验参数	第46-47页
3.4.5 惩罚项系数的影响	第47页
3.4.6 与以前方法的对比	第47-48页
3.4.7 训练时间与损失函数值	第48-49页
3.5 本章小结	第49-50页
第四章自适应时间注意力机制和描述更新模型	第50-70页
4.1 动机	第50-51页
4.2 贡献	第51页
4.3 时间注意力机制	第51-52页
4.4 自适应时间注意力机制	第52-55页
4.4.1 带有语义门的长短期记忆网络	第53-54页
4.4.2 注意力层	第54-55页
4.5 方法流程	第55-62页
4.5.1 视频编码	第56-58页
4.5.2 描述更新	第58-60页
4.5.3 更新后的描述编码	第60-61页
4.5.4 使用自适应时间注意力对空白处单词进行预测	第61-62页
4.6 实验	第62-67页
4.6.1 数据集	第62页
4.6.2 评价标准	第62-63页
4.6.3 实现细节	第63-64页
4.6.4 对比算法	第64页
4.6.5 组件的有效性	第64-66页
4.6.5.1 自适应时间注意力机制的影响	第65-66页
4.6.5.2 描述更新的影响	第66页
4.6.6 与最新研究方法的对比	第66-67页
4.7 本章小结	第67-70页
第五章改进方法	第70-80页
5.1 利用注意力机制进行信息融合	第70-72页
5.1.1 语义信息融合	第70-71页
5.1.2 隐藏状态融合	第71-72页
5.2 整体框架	第72-74页
5.2.1 文本信息融合模块	第72-74页
5.3 复杂度分析	第74-75页
5.4 实验	第75-79页
5.4.1 惩罚项系数的影响	第75-76页
5.4.2 实验结果	第76页
5.4.3 时间对比	第76-77页
5.4.4 训练过程损失函数值	第77-78页
5.4.5 本文提出的四种方法对比	第78-79页
5.5 本章小结	第79-80页
第六章结论与展望	第80-82页
6.1 论文总结	第80页
6.2 未来展望	第80-82页
致谢	第82-83页
参考文献	第83-87页
攻读硕士学位期间取得的研究成果	第87页