基于视觉的文本生成方法研究

摘要	第5-7页
ABSTRACT	第7-8页
第1章绪论	第11-17页
1.1 研究背景和意义	第11页
1.2 国内外研究现状和趋势	第11-14页
1.2.1 图像视频的特征表达	第11-13页
1.2.2 图像视频文本生成相关数据集	第13-14页
1.2.3 图像视频的文本生成的工作	第14页
1.3 本文的研究动机和主要内容	第14-15页
1.4 本文的结构安排和创新点	第15-17页
第2章基于视频内容的文本生成的数据集的构建以及先进方法研究	第17-35页
2.1 基于视频内容的文本生成的数据集的构建	第19-22页
2.1.1 代表性视频数据的收集	第19-20页
2.1.2 视频片断选择和句子标注	第20-21页
2.1.3 数据集切割	第21-22页
2.1.4 数据集分析	第22页
2.2 基于视频内容的文本生成任务的先进方法基准	第22-30页
2.2.1 视频内容描述生成任务的实验以及评价比较分析	第24-30页
2.3 基于MSR-VTT的两届挑战赛	第30-33页
2.3.1 MM-2016挑战赛	第30-31页
2.3.2 MM-2017挑战赛	第31-33页
2.4 小结	第33-35页
第3章根据视频结构对视频内容的文本生成任务的进一步提高	第35-59页
3.1 相关的视频文本生成工作	第37-38页
3.1.1 视频特征表达	第37页
3.1.2 视频标题生成	第37-38页
3.2 MA-LSTM模型的具体结构	第38-44页
3.2.1 方法概括	第39页
3.2.2 对于多模态的融合单元	第39-44页
3.3 实验部分	第44-51页
3.3.1 数据集	第45页
3.3.2 实验设置	第45-46页
3.3.3 与之比较的方法	第46-48页
3.3.4 在MSVD数据集上的实验结果	第48页
3.3.5 在MSR-VTT数据集上的实验结果	第48-49页
3.3.6 定性分析	第49-50页
3.3.7 人工评价	第50-51页
3.4 基于物体检测模型的文本生成和对话问答	第51-58页
3.4.1 具体结构	第53-55页
3.4.2 图像视频文本生成模块	第55-56页
3.4.3 视觉对话问答	第56页
3.4.4 实验结果和分析	第56-58页
3.5 本章小节	第58-59页
第4章根据输人的文本搜索生成故事板	第59-83页
4.1 背景介绍	第59-63页
4.2 方法概述	第63-74页
4.2.1 整体结构	第63-65页
4.2.2 通过SNMF的事件检测	第65-71页
4.2.3 代表性配图的选取	第71-74页
4.3 实验结果和分析	第74-82页
4.3.1 数据分析	第74-75页
4.3.2 实验设置	第75-77页
4.3.3 社交事件的挖掘部分的分析	第77-79页
4.3.4 对相关配图的评测	第79页
4.3.5 结果展示	第79-81页
4.3.6 潜在的应用和扩展	第81-82页
4.4 小结	第82-83页
第5章总结	第83-84页
参考文献	第84-92页
致谢	第92-93页
在读期间发表的学术论文与取得的研究成果	第93页