首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

网页消重技术的研究与实现

摘要第1-5页
Abstract第5-9页
第一章 引言第9-13页
   ·互联网的发展第9-10页
   ·搜索引擎技术介绍第10页
   ·网页消重由来第10-11页
   ·本文研究工作第11-12页
   ·本文组织第12-13页
第二章 网页消重技术的研究现状第13-22页
   ·网页消重技术起源第13-14页
   ·网页重复的特点第14-15页
   ·网页消重关键技术第15-16页
     ·抽取网页正文第15-16页
     ·特征值抽取第16页
     ·计算网页相似度第16页
   ·国内外研究现状第16-22页
     ·国外消重算法介绍第16-18页
     ·国内消重算法介绍第18-22页
第三章 网页正文抽取算法第22-37页
   ·WEB 页面分析第24-27页
     ·HTML第24-25页
     ·DOM第25-26页
     ·WEB 页面特点第26-27页
   ·正文抽取算法第27-33页
     ·网页预处理第27-28页
     ·网页分块第28页
     ·分块聚合第28-30页
     ·分块过滤第30-33页
   ·算法实验第33-37页
     ·准确率测试第34-35页
     ·效率测试第35-37页
第四章 网页消重算法第37-62页
   ·基于字频特征的网页消重算法第37-51页
     ·字频特征提取第38-41页
     ·字频消重算法第41-50页
     ·算法分析第50-51页
   ·基于分段特征的网页消重算法第51-58页
     ·正文分段第52页
     ·分段特征提取第52-54页
     ·分段消重算法第54-57页
     ·算法分析第57-58页
   ·在线消重算法第58-62页
     ·算法实现第58-60页
     ·实验及算法分析第60-62页
第五章 消重算法实验比较及分析第62-74页
   ·消重算法评判标准第62页
   ·实验结果及分析第62-74页
     ·个体测试第62-67页
     ·批量测试第67-74页
第六章 结论与展望第74-76页
   ·结论第74-75页
   ·下一步展望第75-76页
致谢第76-77页
参考文献第77-81页

论文共81页,点击 下载论文
上一篇:基于模板化网络爬虫技术的Web网页信息抽取
下一篇:基于IPv6校园网部署方案的研究与设计