摘要 | 第5-7页 |
abstract | 第7-8页 |
第一章 绪论 | 第11-18页 |
1.1 研究工作的背景与意义 | 第11页 |
1.2 视频总结和标题生成的国内外研究历史与现状 | 第11-15页 |
1.3 本文的主要贡献与创新 | 第15-16页 |
1.4 本论文的结构安排 | 第16-18页 |
第二章 基于加权组稀疏编码算法的视频总结 | 第18-33页 |
2.1 稳定显著性权重和判别权重 | 第19-21页 |
2.1.1 稳定显著性权重 | 第19-20页 |
2.1.2 动态辨别性权重 | 第20页 |
2.1.3 权重融合 | 第20-21页 |
2.2 加权组稀疏编码 | 第21-23页 |
2.2.1 组稀疏编码 | 第22页 |
2.2.2 目标函数 | 第22页 |
2.2.3 迭代优化 | 第22-23页 |
2.3 视频总结 | 第23页 |
2.4 视频总结实验 | 第23-32页 |
2.4.1 数据集 | 第24-25页 |
2.4.2 评价标准 | 第25-27页 |
2.4.3 参数学习 | 第27-28页 |
2.4.4 SumMe数据集结果分析 | 第28-30页 |
2.4.5 UT Ego数据集结果分析 | 第30-32页 |
2.5 本章小结 | 第32-33页 |
第三章 基于时间注意力机制的LSTM模型结合语义一致性 | 第33-55页 |
3.1 深度学习基础知识 | 第34-43页 |
3.1.1 神经单元 | 第34-36页 |
3.1.2 多层感知器网络 | 第36-38页 |
3.1.3 卷积神经网络 | 第38-40页 |
3.1.4 循环神经网络 | 第40-43页 |
3.2 编码-解码框架 | 第43-45页 |
3.2.1 CNN-LSTM编码网络 | 第43页 |
3.2.2 基于注意力机制的LSTM解码网络 | 第43-45页 |
3.3 基于注意力机制的LSTM并结合语义一致性 | 第45-47页 |
3.3.1 注意力机制LSTM搭建视频到词的联系 | 第46页 |
3.3.2 语义交叉相关方法搭建视频与句子之间的联系 | 第46-47页 |
3.4 实验 | 第47-54页 |
3.4.1 数据集 | 第47页 |
3.4.2 实现细节 | 第47-48页 |
3.4.3 影响因子学习 | 第48-50页 |
3.4.4 实验结果分析 | 第50-54页 |
3.5 本章小结 | 第54-55页 |
第四章 级联LSTMs结合调节时间注意力模型 | 第55-64页 |
4.1 编码-解码框架 | 第56-58页 |
4.1.1 CNN编码网络 | 第56页 |
4.1.2 基于调节时间注意力模型的级联LSTMs | 第56-58页 |
4.2 时间注意力机制 | 第58-59页 |
4.3 调节时间注意力机制 | 第59-60页 |
4.4 实验 | 第60-63页 |
4.4.1 数据集 | 第60-61页 |
4.4.2 不同的CNN编码网络对实验效果影响 | 第61页 |
4.4.3 框架探索和比较 | 第61-62页 |
4.4.4 在MSVD数据集上和目前最好的方法比较结果 | 第62-63页 |
4.4.5 在MSR-VTT数据集上和目前最好的方法比较结果 | 第63页 |
4.5 本章小结 | 第63-64页 |
第五章 全文总结与展望 | 第64-66页 |
5.1 全文总结 | 第64-65页 |
5.2 后续工作展望 | 第65-66页 |
致谢 | 第66-67页 |
参考文献 | 第67-72页 |
攻硕期间取得的研究成果 | 第72-73页 |