第一章 绪论 | 第1-12页 |
·问题陈述 | 第7页 |
·相似网页检测所面临的技术挑战 | 第7-11页 |
·本文所做的工作 | 第11-12页 |
第二章 网页过滤和净化 | 第12-19页 |
·网页净化的必要性 | 第12页 |
·网页净化方法和算法 | 第12-17页 |
·网页内容块净化方法 | 第13-15页 |
·一种简单的正文信息提取方法 | 第15-17页 |
·网页净化的效果 | 第17-19页 |
第三章 分类和快速聚类 | 第19-27页 |
·分类 | 第19-25页 |
·文本的表示 | 第19-20页 |
·特征项的抽取 | 第20-21页 |
·训练方法与分类算法 | 第21-25页 |
·分类系统的结构框架 | 第25页 |
·快速聚类 | 第25-27页 |
第四章 相似性度量算法 | 第27-49页 |
·相似性检测的几个问题 | 第27-29页 |
·基于关键词匹配的搜索引擎系统及文档的向量空间表示 | 第27-29页 |
·相似检测的文本特征问题 | 第29-36页 |
·特征提取方式 | 第29-30页 |
·基于字符串比较的方法 | 第30页 |
·基于词频统计的方法 | 第30-33页 |
·基于关键词摘要的方法 | 第33-36页 |
·文本块问题 | 第36-37页 |
·指纹算法 | 第37-43页 |
·HASH 函数 | 第37-39页 |
·指纹的选取 | 第39-43页 |
·网页相似检测算法 | 第43-49页 |
第五章 算法的实现及实验结果 | 第49-53页 |
·系统实现 | 第49-50页 |
·实验结果 | 第50-52页 |
·算法的局限性和可能的改进 | 第52-53页 |
第六章 结束语 | 第53-54页 |
参考文献 | 第54-56页 |
论文摘要 | 第56-58页 |
ABSTRACT | 第58-60页 |
致谢 | 第60-61页 |
导师及作者简介 | 第61页 |