首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

网页正文提取及去重技术研究

摘要第1-4页
Abstract第4-9页
第1章 绪论第9-13页
   ·研究背景第9-10页
   ·研究现状第10-11页
   ·本文工作第11-12页
   ·本文组织第12页
   ·本章小结第12-13页
第2章 相关领域综述第13-26页
   ·搜索引擎系统架构第13-14页
   ·主流网页正文提取技术分析第14-18页
     ·基于DOM树的网页正文提取技术第14-17页
     ·基于文本及标签分布的网页正文提取技术第17页
     ·其它网页正文提取技术第17-18页
   ·网页相似性描述第18-20页
     ·网页类型分类第18-19页
     ·网页相似性分类第19-20页
   ·主流网页去重算法分析第20-25页
     ·基于Shingling的网页相似算法第20-24页
     ·基于LSH的网页相似算法第24-25页
   ·本章小结第25-26页
第3章 基于最大连续子序列和的网页正文提取算法第26-42页
   ·算法设计第26-35页
     ·代码过滤第27-28页
     ·问题转化第28-32页
     ·和序列计算第32-33页
     ·正文提取第33-35页
   ·本章实验第35-41页
     ·实验环境第35页
     ·实验数据集第35-37页
     ·实验评估第37-41页
     ·实验小结第41页
   ·本章小结第41-42页
第4章 基于关键长句和预分类的网页去重算法第42-55页
   ·网页去重一般流程第42-43页
   ·算法设计第43-49页
     ·特征码提取第44-46页
     ·相似度计算第46-49页
   ·本章实验第49-54页
     ·实验环境第49-50页
     ·实验数据集第50-51页
     ·实验评估第51-54页
   ·本章小结第54-55页
第5章 总结与展望第55-58页
   ·总结第55-56页
   ·展望第56-58页
参考文献第58-62页
攻读硕士学位期间主要的研究成果第62-63页
致谢第63页

论文共63页,点击 下载论文
上一篇:BGP网络中监控与故障恢复研究
下一篇:基于心智模型的创意平台类网站体验设计