基于文本分析的互联网视频搜索引擎技术研究
摘要 | 第1-6页 |
ABSTRACT | 第6-7页 |
目录 | 第7-9页 |
第一章 绪论 | 第9-16页 |
·研究背景 | 第9-10页 |
·国内外研究现状 | 第10-12页 |
·搜索引擎工作原理 | 第12-14页 |
·本文的主要工作 | 第14页 |
·本文内容的组织结构 | 第14-16页 |
第二章 网络爬虫相关技术 | 第16-30页 |
·网络爬虫的基本原理 | 第16-18页 |
·网页采集模块 | 第17页 |
·网页分析模块 | 第17页 |
·信息处理模块 | 第17-18页 |
·网页抓取策略 | 第18-19页 |
·广度优先遍历策略 | 第18页 |
·深度优先遍历策略 | 第18-19页 |
·大站优先策略 | 第19页 |
·网络爬虫中的多线程 | 第19-21页 |
·网络爬虫的评价标准及爬取道德 | 第21-22页 |
·网络爬虫的实现 | 第22-29页 |
·解析URL | 第22-23页 |
·下载页面 | 第23-24页 |
·页面分析 | 第24-26页 |
·动态生成评论的获得 | 第26-27页 |
·网络爬虫详细设计 | 第27-29页 |
·小结 | 第29-30页 |
第三章 基于文本信息的视频内容分析 | 第30-40页 |
·中文分词 | 第30-32页 |
·中文分词及其算法介绍 | 第30-32页 |
·中文分词算法的实现 | 第32页 |
·垃圾评论的过滤 | 第32-37页 |
·VSM及词汇间语义相似度介绍 | 第33-34页 |
·垃圾评论实现方法 | 第34-37页 |
·基于相对词频的视频内容判断 | 第37-39页 |
·小结 | 第39-40页 |
第四章 基于用户日志的个性化搜索 | 第40-49页 |
·WEB搜索日志挖掘 | 第40-44页 |
·WEB搜索日志挖掘处理相关概念 | 第40-42页 |
·Sogou用户搜索日志介绍 | 第42-43页 |
·用户搜索日志数据预处理 | 第43页 |
·用户搜索日志记录的分类 | 第43-44页 |
·基于相似度比较的用户查询意图判断 | 第44-48页 |
·句子间相似度计算 | 第45-47页 |
·用户查询意图判断 | 第47-48页 |
·小结 | 第48-49页 |
第五章 实验及系统集成测试 | 第49-57页 |
·网络爬虫测试 | 第49-50页 |
·垃圾评论过滤测试 | 第50-53页 |
·句子相似度匹配测试 | 第53-54页 |
·系统集成测试 | 第54-56页 |
·小结 | 第56-57页 |
第六章 总结与展望 | 第57-59页 |
·本文工作总结 | 第57页 |
·下一步的工作 | 第57-59页 |
致谢 | 第59-60页 |
参考文献 | 第60-63页 |
附录 | 第63页 |