网页相似性算法的研究与实现

第一章绪论	第1-12页
·问题陈述	第7页
·相似网页检测所面临的技术挑战	第7-11页
·本文所做的工作	第11-12页
第二章网页过滤和净化	第12-19页
·网页净化的必要性	第12页
·网页净化方法和算法	第12-17页
·网页内容块净化方法	第13-15页
·一种简单的正文信息提取方法	第15-17页
·网页净化的效果	第17-19页
第三章分类和快速聚类	第19-27页
·分类	第19-25页
·文本的表示	第19-20页
·特征项的抽取	第20-21页
·训练方法与分类算法	第21-25页
·分类系统的结构框架	第25页
·快速聚类	第25-27页
第四章相似性度量算法	第27-49页
·相似性检测的几个问题	第27-29页
·基于关键词匹配的搜索引擎系统及文档的向量空间表示	第27-29页
·相似检测的文本特征问题	第29-36页
·特征提取方式	第29-30页
·基于字符串比较的方法	第30页
·基于词频统计的方法	第30-33页
·基于关键词摘要的方法	第33-36页
·文本块问题	第36-37页
·指纹算法	第37-43页
·HASH 函数	第37-39页
·指纹的选取	第39-43页
·网页相似检测算法	第43-49页
第五章算法的实现及实验结果	第49-53页
·系统实现	第49-50页
·实验结果	第50-52页
·算法的局限性和可能的改进	第52-53页
第六章结束语	第53-54页
参考文献	第54-56页
论文摘要	第56-58页
ABSTRACT	第58-60页
致谢	第60-61页
导师及作者简介	第61页