首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于特征码的大规模中文网页并行去重方法

摘要第1-5页
Abstract第5-9页
第1章 绪论第9-16页
   ·课题背景第9页
   ·研究目的和意义第9-10页
   ·国内外相关技术第10-15页
     ·搜索引擎概述第10-11页
     ·网页查重技术研究现状第11-15页
   ·本文主要研究内容第15-16页
第2章 网页查重技术第16-25页
   ·重复网页分类及检测重复网页的意义第16-17页
   ·基于内容的网页查重方法第17-24页
     ·SCAM算法第18-19页
     ·CHECK方法第19-20页
     ·北大天网的查重方法第20-21页
     ·基于特征码的网页查重方法第21-23页
     ·去重方法比较和分析第23-24页
   ·本章小结第24-25页
第3章 基于特征码的网页去重第25-43页
   ·引言第25-26页
   ·特征码提取算法第26-33页
   ·网页重复度定义第33-37页
   ·基于后缀树的网页去重系统第37-42页
     ·系统实现第38-40页
     ·模糊去重的信息损失第40-42页
   ·本章小结第42-43页
第4章 网页去重系统的并行实现第43-56页
   ·引言第43页
   ·系统实现的主要问题及框架第43-45页
   ·并行系统主要模块第45-55页
     ·特征码提取模块第47-48页
     ·精确匹配特征码去重模块第48-50页
     ·后缀树去重模块第50-55页
   ·本章小结第55-56页
第5章 实验结果与分析第56-72页
   ·引言第56页
   ·实验环境第56-57页
   ·基于特征码的网页去重算法评测第57-68页
     ·特征码的抗噪性测试第59-61页
     ·算法准确率评测第61-67页
     ·系统重复度阈值对准确率和去重率的影响第67-68页
   ·并行去重系统正确性验证和性能测试第68-71页
     ·并行算法的正确性验证第68-69页
     ·并行算法的效率第69-71页
   ·本章小结第71-72页
结论第72-74页
参考文献第74-79页
致谢第79页

论文共79页,点击 下载论文
上一篇:基于GB-RBAC的嵌入式安全内核的设计与实现
下一篇:基于P2P的被动式网络爬虫系统