搜索引擎重复网页检测技术研究

摘要	第1-7页
Abstract	第7-8页
1 引言	第8-13页
·研究背景及意义	第8页
·研究现状简介	第8-10页
·本文主要研究工作	第10-11页
·本文组织	第11-13页
2 相关理论和技术研究	第13-27页
·重复网页的定义	第13-14页
·常用重复网页检测算法	第14-20页
·SCAM 算法	第14-15页
·DSC 和DSC-SS 算法	第15-16页
·I-Match 算法	第16-17页
·全文分段签名算法	第17-18页
·基于关键词匹配算法	第18-19页
·基于特征码抽取算法	第19-20页
·常用算法的性能分析	第20-21页
·重复网页检测技术的关键环节	第21-27页
·特征提取	第22-24页
·特征比较	第24-27页
3 关键技术介绍	第27-36页
·MD5 算法	第27-28页
·二叉排序树	第28-30页
·中文分词技术	第30-36页
·中文分词的应用	第31页
·中文分词的难点	第31-32页
·中文分词的方法	第32-34页
·ICTCLAS 汉语分词系统介绍	第34-36页
4 一种基于语义的重复网页检测算法	第36-45页
·算法描述	第36-37页
·关键词权值排序方法	第37页
·关键词字母排序方法	第37页
·预处理	第37-38页
·词语权值计算方法	第38-41页
·位置权值	第39-40页
·长度权值	第40-41页
·权值计算总公式	第41页
·算法流程	第41-42页
·算法分析	第42-45页
5 重复网页检测原型系统的设计及实验结果	第45-59页
·原型系统的设计	第45-49页
·系统的总体框架	第45页
·系统的具体模块	第45-47页
·基于语义的重复网页检测算法的实现	第47-49页
·算法的评测	第49-53页
·基准算法	第49-51页
·实验数据集	第51页
·评价指标	第51-53页
·实验结果	第53-59页
·运行环境	第53页
·确定算法的最优参数	第53-56页
·同基准算法的比较	第56-59页
6 结论与展望	第59-61页
·结论	第59-60页
·下一步研究工作	第60-61页
致谢	第61-62页
参考文献	第62-64页
附录1 (攻读学位期间发表论文目录）	第64页