首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

搜索引擎重复网页检测技术研究

摘要第1-7页
Abstract第7-8页
1 引言第8-13页
   ·研究背景及意义第8页
   ·研究现状简介第8-10页
   ·本文主要研究工作第10-11页
   ·本文组织第11-13页
2 相关理论和技术研究第13-27页
   ·重复网页的定义第13-14页
   ·常用重复网页检测算法第14-20页
     ·SCAM 算法第14-15页
     ·DSC 和DSC-SS 算法第15-16页
     ·I-Match 算法第16-17页
     ·全文分段签名算法第17-18页
     ·基于关键词匹配算法第18-19页
     ·基于特征码抽取算法第19-20页
   ·常用算法的性能分析第20-21页
   ·重复网页检测技术的关键环节第21-27页
     ·特征提取第22-24页
     ·特征比较第24-27页
3 关键技术介绍第27-36页
   ·MD5 算法第27-28页
   ·二叉排序树第28-30页
   ·中文分词技术第30-36页
     ·中文分词的应用第31页
     ·中文分词的难点第31-32页
     ·中文分词的方法第32-34页
     ·ICTCLAS 汉语分词系统介绍第34-36页
4 一种基于语义的重复网页检测算法第36-45页
   ·算法描述第36-37页
     ·关键词权值排序方法第37页
     ·关键词字母排序方法第37页
   ·预处理第37-38页
   ·词语权值计算方法第38-41页
     ·位置权值第39-40页
     ·长度权值第40-41页
     ·权值计算总公式第41页
   ·算法流程第41-42页
   ·算法分析第42-45页
5 重复网页检测原型系统的设计及实验结果第45-59页
   ·原型系统的设计第45-49页
     ·系统的总体框架第45页
     ·系统的具体模块第45-47页
     ·基于语义的重复网页检测算法的实现第47-49页
   ·算法的评测第49-53页
     ·基准算法第49-51页
     ·实验数据集第51页
     ·评价指标第51-53页
   ·实验结果第53-59页
     ·运行环境第53页
     ·确定算法的最优参数第53-56页
     ·同基准算法的比较第56-59页
6 结论与展望第59-61页
   ·结论第59-60页
   ·下一步研究工作第60-61页
致谢第61-62页
参考文献第62-64页
附录1 (攻读学位期间发表论文目录)第64页

论文共64页,点击 下载论文
上一篇:基于数据挖掘的入侵检测模型研究
下一篇:多模态医学图像的配准与融合技术研究及应用