摘要 | 第5-7页 |
ABSTRACT | 第7-8页 |
第1章 绪论 | 第11-17页 |
1.1 研究背景和意义 | 第11页 |
1.2 国内外研究现状和趋势 | 第11-14页 |
1.2.1 图像视频的特征表达 | 第11-13页 |
1.2.2 图像视频文本生成相关数据集 | 第13-14页 |
1.2.3 图像视频的文本生成的工作 | 第14页 |
1.3 本文的研究动机和主要内容 | 第14-15页 |
1.4 本文的结构安排和创新点 | 第15-17页 |
第2章 基于视频内容的文本生成的数据集的构建以及先进方法研究 | 第17-35页 |
2.1 基于视频内容的文本生成的数据集的构建 | 第19-22页 |
2.1.1 代表性视频数据的收集 | 第19-20页 |
2.1.2 视频片断选择和句子标注 | 第20-21页 |
2.1.3 数据集切割 | 第21-22页 |
2.1.4 数据集分析 | 第22页 |
2.2 基于视频内容的文本生成任务的先进方法基准 | 第22-30页 |
2.2.1 视频内容描述生成任务的实验以及评价比较分析 | 第24-30页 |
2.3 基于MSR-VTT的两届挑战赛 | 第30-33页 |
2.3.1 MM-2016挑战赛 | 第30-31页 |
2.3.2 MM-2017挑战赛 | 第31-33页 |
2.4 小结 | 第33-35页 |
第3章 根据视频结构对视频内容的文本生成任务的进一步提高 | 第35-59页 |
3.1 相关的视频文本生成工作 | 第37-38页 |
3.1.1 视频特征表达 | 第37页 |
3.1.2 视频标题生成 | 第37-38页 |
3.2 MA-LSTM模型的具体结构 | 第38-44页 |
3.2.1 方法概括 | 第39页 |
3.2.2 对于多模态的融合单元 | 第39-44页 |
3.3 实验部分 | 第44-51页 |
3.3.1 数据集 | 第45页 |
3.3.2 实验设置 | 第45-46页 |
3.3.3 与之比较的方法 | 第46-48页 |
3.3.4 在MSVD数据集上的实验结果 | 第48页 |
3.3.5 在MSR-VTT数据集上的实验结果 | 第48-49页 |
3.3.6 定性分析 | 第49-50页 |
3.3.7 人工评价 | 第50-51页 |
3.4 基于物体检测模型的文本生成和对话问答 | 第51-58页 |
3.4.1 具体结构 | 第53-55页 |
3.4.2 图像视频文本生成模块 | 第55-56页 |
3.4.3 视觉对话问答 | 第56页 |
3.4.4 实验结果和分析 | 第56-58页 |
3.5 本章小节 | 第58-59页 |
第4章 根据输人的文本搜索生成故事板 | 第59-83页 |
4.1 背景介绍 | 第59-63页 |
4.2 方法概述 | 第63-74页 |
4.2.1 整体结构 | 第63-65页 |
4.2.2 通过SNMF的事件检测 | 第65-71页 |
4.2.3 代表性配图的选取 | 第71-74页 |
4.3 实验结果和分析 | 第74-82页 |
4.3.1 数据分析 | 第74-75页 |
4.3.2 实验设置 | 第75-77页 |
4.3.3 社交事件的挖掘部分的分析 | 第77-79页 |
4.3.4 对相关配图的评测 | 第79页 |
4.3.5 结果展示 | 第79-81页 |
4.3.6 潜在的应用和扩展 | 第81-82页 |
4.4 小结 | 第82-83页 |
第5章 总结 | 第83-84页 |
参考文献 | 第84-92页 |
致谢 | 第92-93页 |
在读期间发表的学术论文与取得的研究成果 | 第93页 |