基于深度神经网络和注意力机制的图像问答研究

摘要	第5-6页
ABSTRACT	第6-7页
第1章绪论	第10-20页
1.1 研究背景与意义	第10-15页
1.2 研究历史和现状	第15-18页
1.2.1 核心问题	第15-16页
1.2.2 数据集	第16页
1.2.3 现有方法	第16-18页
1.3 论文内容与章节安排	第18-20页
第2章基于属性和描述的图像问答	第20-44页
2.1 属性预测(Word Prediction)	第22-26页
2.2 描述生成(Sentence Generation)	第26-33页
2.2.1 图像描述简介	第26-27页
2.2.2 图像描述生成模型	第27-29页
2.2.3 基于长短时记忆网络的句子生成模型	第29-33页
2.2.4 生成的描述质量评估	第33页
2.3 答案推理(Answer Reasoning)	第33-34页
2.4 实验	第34-42页
2.4.1 实验设置	第34-36页
2.4.2 实验结果及分析	第36-42页
2.5 本章小结	第42-44页
第3章带解释的图像问答	第44-60页
3.1 带解释的图像问答数据集(VQA-E)	第46-51页
3.1.1 文本解释合成	第46-47页
3.1.2 数据集分析	第47-49页
3.1.3 数据集质量评估-用户调查	第49-51页
3.2 多任务带解释图像问答模型	第51-54页
3.2.1 图像特征	第52页
3.2.2 问题表示	第52-53页
3.2.3 视觉注意力机制( Visual Attention)	第53页
3.2.4 答案预测	第53-54页
3.2.5 解释生成	第54页
3.3 实验	第54-58页
3.3.1 实验设置	第54-55页
3.3.2 解释生成任务的评估	第55-56页
3.3.3 答案预测任务的评估	第56-57页
3.3.4 对结果的定性分析	第57-58页
3.4 本章小结	第58-60页
第4章总结和展望	第60-62页
参考文献	第62-66页
致谢	第66-67页
在读期间发表的学术论文与取得的研究成果	第67页