基于内嵌字幕的近似视频网页去重研究与实现

摘要	第4-6页
Abstract	第6-7页
第1章绪论	第10-18页
1.1 研究背景与意义	第10-12页
1.1.1 研究背景	第10-11页
1.1.2 研究意义	第11-12页
1.2 国内外研究现状	第12-15页
1.2.1 国内研究现状	第12-14页
1.2.2 国外研究现状	第14-15页
1.3 主要内容与论文安排	第15-18页
第2章相关技术	第18-30页
2.1 Selenium	第18页
2.2 内嵌字幕等的提取	第18-24页
2.2.1 字幕的种类	第19-20页
2.2.2 OCR处理	第20-21页
2.2.3 OCR提取内嵌字幕	第21-24页
2.3 文本相似度算法	第24-26页
2.3.1 LCS问题求解原理	第24-25页
2.3.2 LCS算法原理（非连续）	第25页
2.3.3 本文的动态规划LCS算法	第25-26页
2.4 阈值的确定	第26-29页
2.4.1 一元线性回归	第27页
2.4.2 极大似然估计	第27-28页
2.4.3 回归效果检验	第28-29页
2.5 删除重复视频	第29页
2.6 本章小结	第29-30页
第3章网页视频的抓取	第30-34页
3.1 视频抓取数据源	第30-31页
3.2 抓取过程	第31页
3.3 基于Selenium搭建框架	第31-33页
3.4 本章小结	第33-34页
第4章阈值的确定	第34-38页
4.1 阈值的确定	第34-36页
4.2 本章小结	第36-38页
第5章文本相似度算法	第38-42页
5.1 动态规划LCS算法	第38-39页
5.2 具体实现步骤	第39-41页
5.3 本章小结	第41-42页
第6章实验系统设计与实验结果	第42-52页
6.1 实验系统总体结构	第42-45页
6.2 实验系统详细设计	第45-46页
6.3 去重模块	第46-47页
6.4 数据平台及数据获取	第47-48页
6.5 实验结果分析	第48-50页
6.5.1 性能评价指标	第48-49页
6.5.2 实验结果	第49-50页
6.6 本章小结	第50-52页
结论	第52-54页
参考文献	第54-58页
攻读硕士学位期间所发表的学术论文	第58-60页
致谢	第60页