首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--模式识别与装置论文

基于多头注意力机制的视频描述生成算法研究

摘要第4-5页
Abstract第5页
1 绪论第11-17页
    1.1 研究背景第11页
    1.2 国内外研究现状第11-14页
        1.2.1 机器翻译第12页
        1.2.2 图像描述第12-13页
        1.2.3 视频描述第13-14页
    1.3 本文研究创新点第14页
    1.4 本文组织结构第14-17页
2 相关工作介绍第17-29页
    2.1 预训练特征提取模型第18-22页
        2.1.1 ResNet第18-19页
        2.1.2 NasNet第19-20页
        2.1.3 I3D卷积神经网络第20页
        2.1.4 Skip-Gram语言模型第20-22页
    2.2 序列-序列模型第22-26页
        2.2.1 基于LSTM的序列-序列模型第22-24页
        2.2.2 注意力机制第24-25页
        2.2.3 基于LSTM解码器和时序注意力机制的视频描述模型第25-26页
    2.3 集束搜索算法第26-27页
    2.4 训练技巧第27-28页
        2.4.1 层归一化第27页
        2.4.2 Dropout第27-28页
        2.4.3 Adam优化器第28页
    2.5 本章小结第28-29页
3 基于多头注意力机制的视频描述模型第29-45页
    3.1 问题概述第29-30页
    3.2 模型介绍第30-37页
        3.2.1 视觉特征提取层第30-31页
        3.2.2 视觉特征嵌入层第31页
        3.2.3 帧位置信息编码层第31-32页
        3.2.4 模型编码层第32-35页
        3.2.5 词向量嵌入层第35页
        3.2.6 模型解码层第35-36页
        3.2.7 Softmax输出层第36页
        3.2.8 目标函数第36-37页
    3.3 实验设置第37-40页
        3.3.1 数据集介绍第37页
        3.3.2 评估指标第37-39页
        3.3.3 实现细节第39-40页
    3.4 实验结果分析第40-44页
        3.4.1 与LSTM模型的比较第40-42页
        3.4.2 MultiHead模型不同参数对比第42-43页
        3.4.3 集束搜索不同参数对比第43-44页
    3.5 本章小结第44-45页
4 多模态特征融合的双视图视频描述模型第45-57页
    4.1 问题概述第45页
    4.2 模型介绍第45-49页
        4.2.1 双视图模型编码器第46-47页
        4.2.2 加法融合解码模块第47-48页
        4.2.3 注意力融合解码模块第48-49页
        4.2.4 多模态特征融合方式分析第49页
    4.3 实验设置第49-50页
    4.4 实验结果分析第50-55页
        4.4.1 定量结果分析第50-53页
        4.4.2 定性结果分析第53-55页
    4.5 本章小结第55-57页
5 基于半监督学习的视频描述模型第57-65页
    5.1 问题概述第57-58页
    5.2 模型介绍第58-60页
        5.2.1 基于自注意力机制的视频帧特征去噪编码器第58-59页
        5.2.2 多任务学习视频描述模型第59-60页
    5.3 实验设置第60-61页
        5.3.1 预训练数据集第60页
        5.3.2 预训练细节第60-61页
        5.3.3 多任务学习参数设置第61页
    5.4 实验结果分析第61-63页
        5.4.1 预训练模型选择第61-62页
        5.4.2 多任务学习权重参数选择第62页
        5.4.3 跨数据集评测第62-63页
        5.4.4 自注意力权重分析第63页
    5.5 本章小结第63-65页
6 总结与展望第65-67页
    6.1 本文工作总结第65页
    6.2 不足与展望第65-67页
参考文献第67-73页
作者简历第73-75页
致谢第75页

论文共75页,点击 下载论文
上一篇:基于模糊逼近补偿法的AUV位形切换饱和跟踪控制研究
下一篇:六方氮化硼的能带特性和深紫外探测器研究