首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

中文重复网页的检测算法研究

摘要第1-5页
Abstract第5-8页
第一章 引言第8-15页
   ·互联网发展现状第8页
   ·搜索引擎简介第8-12页
     ·搜索引擎简介第9-11页
     ·提高搜索引擎检索效率的几种策略第11-12页
   ·网页去重的应用前景第12-13页
   ·本文的主要内容和组织第13-15页
第二章 重复网页检测算法研究现状第15-27页
   ·重复网页检测概述第15-16页
   ·重复网页检测算法研究现状第16-21页
     ·基于内容的重复网页检测第16-20页
     ·基于链接的重复网页检测第20页
     ·基于链接信息的重复网页检测第20-21页
     ·几种重复网页检测方法的比较第21页
   ·重复网页检测相关技术第21-26页
     ·网页解析第21页
     ·网页文本分词第21-22页
     ·网页文本表示及特征选择第22-25页
     ·网页相似度比较第25-26页
   ·本章小结第26-27页
第三章 中文重复网页的改进检测算法研究第27-33页
   ·DSC算法模型第27-28页
   ·改进中文重复网页检测算法总体设计第28-30页
   ·改进中文重复网页检测算法详细设计第30-32页
   ·本章小结第32-33页
第四章 实验设计及结果分析第33-44页
   ·实验环境第33页
   ·实验步骤第33-39页
     ·网页解析及纯文本提取第33-35页
     ·网页文本的中文分词第35-38页
     ·网页向量空间表示及相似度计算第38-39页
   ·实验结果分析第39-43页
   ·本章小结第43-44页
第五章 总结和展望第44-46页
   ·本文总结第44页
   ·未来工作展望第44-46页
参考文献第46-49页
附录 实验核心代码第49-62页
致谢第62-63页
攻读学位期间发表的学术论文目录第63页

论文共63页,点击 下载论文
上一篇:基于P2P的Botnet研究与实现
下一篇:空天信息网络MAC层设计与实现