摘要 | 第4-5页 |
abstract | 第5页 |
专用术语注释表 | 第8-9页 |
第一章 绪论 | 第9-12页 |
1.1 课题背景 | 第9-10页 |
1.2 课题来源及文本组织 | 第10-12页 |
第二章 相关技术基础 | 第12-23页 |
2.1 基于深度学习的视频分析系统的相关技术 | 第12-16页 |
2.1.1 卷积神经网络(CNNs) | 第12-14页 |
2.1.2 递归神经网络(RNNs) | 第14-16页 |
2.2 基于深度学习的视频分类技术 | 第16-19页 |
2.2.1 基于图片的视频分类技术 | 第16-17页 |
2.2.2 基于End-to-End CNN的视频分类技术 | 第17-19页 |
2.2.3 基于动态建模的视频分类技术 | 第19页 |
2.3 基于深度学习的视频描述技术 | 第19-22页 |
2.3.1 视频描述技术所面对的挑战问题 | 第20页 |
2.3.2 基于模板语言的视频描述技术 | 第20页 |
2.3.3 基于语句序列学习模型的视频描述技术 | 第20-22页 |
2.4 本章小结 | 第22-23页 |
第三章 基于深度学习的视频分析系统总体设计 | 第23-33页 |
3.1 设计目标 | 第23-26页 |
3.1.1 系统功能需求 | 第23-25页 |
3.1.2 系统性能要求 | 第25-26页 |
3.2 系统总体设计 | 第26-29页 |
3.2.1 系统功能设计 | 第26-28页 |
3.2.2 系统处理流程 | 第28-29页 |
3.3 系统架构 | 第29-32页 |
3.3.1 系统模型 | 第29-31页 |
3.3.2 数据集的选择 | 第31-32页 |
3.4 本章小结 | 第32-33页 |
第四章 特征提取机制 | 第33-45页 |
4.1 传统C3D模型 | 第33-35页 |
4.2 C3D动作识别模型改进方案 | 第35-38页 |
4.2.1 3D pooling | 第36页 |
4.2.2 改进后的C3D模型 | 第36-38页 |
4.3 改进后C3D模型调优方案 | 第38-43页 |
4.3.1 对过拟合优化 | 第38-41页 |
4.3.2 对batch size的优化 | 第41-43页 |
4.4 本章小结 | 第43-45页 |
第五章 基于Attention Model的LSTM解码 | 第45-60页 |
5.1 基于LSTM的语义解析算法 | 第45-53页 |
5.1.1 LSTM语言建模 | 第46-49页 |
5.1.2 LSTM语义解析算法 | 第49-53页 |
5.2 基于Attention Model的LSTM特征解析算法 | 第53-59页 |
5.2.1 Attention Model | 第53-56页 |
5.2.2 基于Attention Model的LSTM特征解析 | 第56-59页 |
5.3 本章小结 | 第59-60页 |
第六章 系统测试 | 第60-71页 |
6.1 测试需求 | 第60页 |
6.2 测试环境 | 第60-64页 |
6.2.1 软、硬件环境 | 第61页 |
6.2.2 系统搭建 | 第61-64页 |
6.3 系统功能测试 | 第64-70页 |
6.3.1 软件启动 | 第64-65页 |
6.3.2 文件选择 | 第65-67页 |
6.3.3 目标识别 | 第67-69页 |
6.3.4 视频分析 | 第69-70页 |
6.4 总结 | 第70-71页 |
第七章 总结与展望 | 第71-73页 |
7.1 总结 | 第71页 |
7.2 展望 | 第71-73页 |
参考文献 | 第73-76页 |
附录1 程序清单 | 第76-77页 |
附录2 攻读硕士学位期间撰写的论文 | 第77-78页 |
附录3 攻读硕士学位期间申请的专利 | 第78-79页 |
附录4 攻读硕士学位期间参加的科研项目 | 第79-80页 |
致谢 | 第80-81页 |