摘要 | 第5-6页 |
Abstract | 第6-7页 |
第一章 绪论 | 第11-21页 |
1.1 研究背景及意义 | 第11-12页 |
1.2 国内外研究现状 | 第12-17页 |
1.3 视频描述的难点与挑战 | 第17-18页 |
1.4 本文主要创新点 | 第18-19页 |
1.5 本文结构安排 | 第19-21页 |
第二章 深度神经网络的相关理论知识 | 第21-40页 |
2.1 反向传播算法 | 第21-23页 |
2.2 卷积神经网络 | 第23-32页 |
2.2.1 CNN概述 | 第24-27页 |
2.2.2 训练方法 | 第27-29页 |
2.2.3 常见网络 | 第29-31页 |
2.2.4 主要应用 | 第31-32页 |
2.3 递归神经网络 | 第32-37页 |
2.3.1 RNN概述 | 第32-33页 |
2.3.2 训练方法 | 第33-34页 |
2.3.3 扩展网络 | 第34-36页 |
2.3.4 主要应用 | 第36-37页 |
2.4 典型的优化算法及训练技巧 | 第37-38页 |
2.4.1 优化算法 | 第37页 |
2.4.2 训练技巧 | 第37-38页 |
2.5 本章小结 | 第38-40页 |
第三章 视频描述的技术基础和核心问题 | 第40-49页 |
3.1 编码器-解码器框架 | 第40-42页 |
3.2 注意力机制 | 第42-44页 |
3.3 文本质量评价方法 | 第44-48页 |
3.4 本章小结 | 第48-49页 |
第四章 基于时序注意力机制的视频描述方法 | 第49-62页 |
4.1 视频特征提取 | 第49-51页 |
4.2 时序注意力机制 | 第51-52页 |
4.3 视频描述语句生成 | 第52-54页 |
4.3.1 基于LSTM变种网络的解码器 | 第52-54页 |
4.3.2 波束搜索 | 第54页 |
4.4 实验与结果分析 | 第54-61页 |
4.4.1 数据集与评价指标 | 第54-56页 |
4.4.2 实验设定 | 第56-57页 |
4.4.3 实验及结果分析 | 第57-61页 |
4.5 本章小结 | 第61-62页 |
第五章 结合丰富语义信息和时空注意力的视频描述方法 | 第62-81页 |
5.1 多特征融合 | 第62-67页 |
5.1.1 场景信息 | 第63-64页 |
5.1.2 光流特征 | 第64-65页 |
5.1.3 融合视觉特征 | 第65-66页 |
5.1.4 实验及结果分析 | 第66-67页 |
5.2 双向LSTM编码器 | 第67-70页 |
5.2.1 基于双向LSTM编码器的视频描述方法 | 第67-69页 |
5.2.2 实验及结果分析 | 第69-70页 |
5.3 时空注意力机制 | 第70-72页 |
5.3.1 基于时空注意力机制的视频描述方法 | 第70-72页 |
5.3.2 实验及结果分析 | 第72页 |
5.4 基于长度归一化的波束搜索 | 第72-74页 |
5.4.1 长度归一化处理 | 第72-73页 |
5.4.2 实验及结果分析 | 第73-74页 |
5.5 结合丰富语义信息和时空注意力机制的视频描述模型 | 第74-79页 |
5.5.1 结合丰富语义信息和时空注意力机制 | 第75-76页 |
5.5.2 对比主流方法 | 第76-78页 |
5.5.3 定性分析 | 第78-79页 |
5.6 本章小结 | 第79-81页 |
第六章 总结与展望 | 第81-83页 |
6.1 总结 | 第81-82页 |
6.2 展望 | 第82-83页 |
参考文献 | 第83-92页 |
攻读硕士学位期间取得的研究成果 | 第92-94页 |
致谢 | 第94-95页 |
附件 | 第95页 |