首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--模式识别与装置论文

基于Lexical R-CNN的视频描述

摘要第4-6页
Abstract第6-7页
第1章 绪论第11-15页
    1.1 研究背景及意义第11页
    1.2 国内外研究现状第11-13页
    1.3 视频文字描述任务存在的困难第13-14页
    1.4 本文研究的问题及整体框架第14页
    1.5 本章小结第14-15页
第2章 相关技术介绍第15-25页
    2.1 卷积神经网络(CNN)第15-16页
    2.2 VGG-16第16-17页
    2.3 修正线性激活单元(Re LU)第17-19页
    2.4 Batch Normalization第19-20页
    2.5 Faster R-CNN第20-21页
    2.6 循环神经网络第21-23页
    2.7 LSTM第23-24页
    2.8 本章小结第24-25页
第3章 基于Faster R-CNN的预训练视觉模型训练第25-39页
    3.1 Faster R-CNN详细分析第25-28页
        3.1.1 Anchor第26-27页
        3.1.2 Ro I Pooling第27-28页
    3.2 预训练视觉模型设计第28-33页
        3.2.1 双线性采样层取代Ro I Pooling层第28-30页
        3.2.2 采样网格计算第30-31页
        3.2.3 梯度流动与反向传播第31-32页
        3.2.4 模型设计第32-33页
    3.3 实现细节第33-36页
        3.3.1 候选区域采样第33页
        3.3.2 边界框(Bounding Box)回归第33-35页
        3.3.3 目标函数第35-36页
    3.4 实验第36-37页
        3.4.1 数据集和细节第36页
        3.4.2 结果第36-37页
    3.5 本章小结第37-39页
第4章 基于MIMLL的视觉模型Lexical R-CNN第39-47页
    4.1 迁移学习第39-41页
        4.1.1 迁移学习背景第39-40页
        4.1.2 迁移学习定义第40页
        4.1.3 视觉模型的迁移第40-41页
    4.2 多实例多标签学习(MIMLL)第41-43页
        4.2.1 多实例学习(MIL)第41页
        4.2.2 多标签学习(MLL)第41-42页
        4.2.3 多实例多标签学习(MIMLL)第42-43页
    4.3 Lexical R-CNN模型设计第43-45页
        4.3.1 区域筛选第43-44页
        4.3.2 训练方法第44页
        4.3.3 模型设计第44-45页
    4.4 本章小结第45-47页
第5章 基于LSTM的语言模型设计第47-53页
    5.1 S2VT方法介绍第47-49页
        5.1.1 序列建模的LSTM方法第47-48页
        5.1.2 视频到文字的序列到序列建模方法第48-49页
        5.1.3 视频和文本表示第49页
    5.2 S2VT改进第49-51页
        5.2.1 存在问题第49-50页
        5.2.2 双向LSTM第50-51页
    5.3 改进后的语言模型第51-52页
    5.4 本章小结第52-53页
第6章 视频字幕模型第53-67页
    6.1 区域序列生成第53-56页
        6.1.1 形式化问题第53-54页
        6.1.2 次模函数第54-55页
        6.1.3 次模函数最大化和贪心求解第55-56页
    6.2 区域序列生成中的次模函数定义第56-59页
        6.2.1 信息衡量定义第57-58页
        6.2.2 多样性衡量定义第58页
        6.2.3 连贯性衡量定义第58页
        6.2.4 区域序列生成过程简述第58-59页
    6.3 次模函数训练第59-60页
        6.3.1 次模参数学习第59页
        6.3.2 区域序列关联句子标记第59-60页
    6.4 视频字幕整体模型第60-62页
        6.4.1 模型描述及示意第60-61页
        6.4.2 损失函数第61-62页
    6.5 实验第62-66页
        6.5.1 数据集及细节第62-63页
        6.5.2 结果比较第63-64页
        6.5.3 运行时间第64-65页
        6.5.4 字幕生成示例图第65-66页
    6.6 本章小结第66-67页
第7章 总结与展望第67-69页
    7.1 总结第67页
    7.2 展望第67-69页
参考文献第69-73页
作者简介及在学期间所取得的科研成果第73-75页
致谢第75页

论文共75页,点击 下载论文
上一篇:基于一般性物体检测和类Haar特征的行人检测研究
下一篇:基于改进K-means聚类和RBM的协同过滤算法