视觉问答中的多模态信息融合

摘要	第4-5页
Abstract	第5-6页
第1章绪论	第11-23页
1.1 研究背景	第11-14页
1.2 国内外研究现状	第14-21页
1.2.1 Attention结构的研究	第15-17页
1.2.2 特征融合的研究	第17-19页
1.2.3 基于外部知识的模型研究	第19-21页
1.2.4 对模型架构的研究	第21页
1.3 论文研究的主要内容与贡献	第21-23页
第2章视觉问答介绍	第23-39页
2.1 任务描述	第23-24页
2.2 数据集	第24-28页
2.3 基础架构	第28-37页
2.3.1 图像编码	第28-30页
2.3.2 问题编码	第30-34页
2.3.3 Attention机制	第34-35页
2.3.4 特征融合	第35-37页
2.3.5 答案预测	第37页
2.4 评估方法	第37-38页
2.5 本章小结	第38-39页
第3章视觉问答模型的单模态特征融合	第39-49页
3.1 动机与方法	第39-40页
3.2 生成图像描述	第40-42页
3.3 单模态视觉问答模型	第42-43页
3.4 实验及结果	第43-47页
3.4.1 模型训练	第44页
3.4.2 实验设计与结果分析	第44-47页
3.5 本章小结	第47-49页
第4章视觉问答模型中的特征增强	第49-67页
4.1 动机与方法	第49-50页
4.2 为图像区域增补文本特征	第50-53页
4.3 特征增强与Attention机制	第53-62页
4.3.1 模型设计	第53-56页
4.3.2 实验配置	第56-57页
4.3.3 特征增强模型间的比较	第57-59页
4.3.4 不同问题类型下的模型差异	第59-60页
4.3.5 不同特征增强方案下的Attention权重可视化	第60-62页
4.4 附带特征增强的视觉问答模型	第62-65页
4.4.1 模型设计与训练	第62-63页
4.4.2 与现有模型的比较	第63-65页
4.5 本章小结	第65-67页
第5章总结与展望	第67-69页
5.1 工作总结	第67-68页
5.2 讨论与展望	第68-69页
参考文献	第69-75页
攻读硕士学位期间主要的研究成果	第75-77页
致谢	第77页