基于注意力机制与高层语义的视觉问答研究

摘要	第5-7页
ABSTRACT	第7-9页
第1章绪论	第19-30页
1.1 研究背景	第19-24页
1.2 国内外研究现状	第24-28页
1.2.1 基于多模态融合的方法	第24-26页
1.2.2 基于高层语义的方法	第26页
1.2.3 注意力机制	第26-27页
1.2.4 复合模型	第27-28页
1.3 本文研究内容与结构安排	第28-30页
第2章基于多层次注意力网络的视觉问答	第30-44页
2.1 背景介绍	第30-32页
2.2 相关工作	第32-33页
2.3 多层次注意力网络	第33-38页
2.3.1 语义注意力	第33-35页
2.3.2 上下文已知的视觉注意力	第35-37页
2.3.3 联合学习	第37-38页
2.4 实验评估	第38-43页
2.4.1 数据集	第38-39页
2.4.2 评估标准	第39页
2.4.3 实验设置	第39-41页
2.4.4 消融模型	第41页
2.4.5 实验结果与分析	第41-43页
2.4.6 注意力可视化	第43页
2.5 总结与讨论	第43-44页
第3章基于多源多层次注意力网络的视觉问答	第44-62页
3.1 背景介绍	第44-47页
3.2 相关工作	第47-49页
3.3 多源多层次注意力网络	第49-54页
3.3.1 上下文已知的视觉注意力	第49-52页
3.3.2 属性注意力	第52页
3.3.3 知识注意力	第52-53页
3.3.4 联合学习	第53-54页
3.4 实验评估	第54-60页
3.4.1 数据集	第54页
3.4.2 评价标准	第54-55页
3.4.3 实验设置	第55-56页
3.4.4 消融模型	第56-57页
3.4.5 实验结果与分析	第57-60页
3.4.6 注意力可视化	第60页
3.5 讨论与总结	第60-62页
第4章基于图注意力网络的视觉问答	第62-75页
4.1 背景介绍	第62-64页
4.2 相关工作	第64-65页
4.3 图注意力网络	第65-68页
4.3.1 节点选择	第65-67页
4.3.2 图构建	第67-68页
4.3.3 图嵌入	第68页
4.4 实验	第68-74页
4.4.1 数据集	第68-69页
4.4.2 评估标准	第69页
4.4.3 实验设置	第69-70页
4.4.4 消融实验研究	第70-71页
4.4.5 结果与分析	第71-74页
4.5 总结与讨论	第74-75页
第5章基于属性和字幕的可解释视觉问答	第75-87页
5.1 背景介绍	第75-77页
5.2 相关工作	第77页
5.3 方法部分	第77-80页
5.3.1 单词预测	第77-79页
5.3.2 句子生成	第79页
5.3.3 答案推理	第79-80页
5.4 实验与分析	第80-86页
5.4.1 实验设置	第80页
5.4.2 基于单词的视觉问答	第80-81页
5.4.3 基于句子的视觉问答	第81-83页
5.4.4 案例分析	第83-85页
5.4.5 性能比较	第85-86页
5.5 总结与讨论	第86-87页
第6章总结与展望	第87-90页
6.1 全文总结	第87-88页
6.2 未来工作与展望	第88-90页
参考文献	第90-96页
致谢	第96-97页
在读期间发表的学术论文与取得的研究成果	第97页