| 第一章 绪论 | 第1-12页 |
| ·问题陈述 | 第7页 |
| ·相似网页检测所面临的技术挑战 | 第7-11页 |
| ·本文所做的工作 | 第11-12页 |
| 第二章 网页过滤和净化 | 第12-19页 |
| ·网页净化的必要性 | 第12页 |
| ·网页净化方法和算法 | 第12-17页 |
| ·网页内容块净化方法 | 第13-15页 |
| ·一种简单的正文信息提取方法 | 第15-17页 |
| ·网页净化的效果 | 第17-19页 |
| 第三章 分类和快速聚类 | 第19-27页 |
| ·分类 | 第19-25页 |
| ·文本的表示 | 第19-20页 |
| ·特征项的抽取 | 第20-21页 |
| ·训练方法与分类算法 | 第21-25页 |
| ·分类系统的结构框架 | 第25页 |
| ·快速聚类 | 第25-27页 |
| 第四章 相似性度量算法 | 第27-49页 |
| ·相似性检测的几个问题 | 第27-29页 |
| ·基于关键词匹配的搜索引擎系统及文档的向量空间表示 | 第27-29页 |
| ·相似检测的文本特征问题 | 第29-36页 |
| ·特征提取方式 | 第29-30页 |
| ·基于字符串比较的方法 | 第30页 |
| ·基于词频统计的方法 | 第30-33页 |
| ·基于关键词摘要的方法 | 第33-36页 |
| ·文本块问题 | 第36-37页 |
| ·指纹算法 | 第37-43页 |
| ·HASH 函数 | 第37-39页 |
| ·指纹的选取 | 第39-43页 |
| ·网页相似检测算法 | 第43-49页 |
| 第五章 算法的实现及实验结果 | 第49-53页 |
| ·系统实现 | 第49-50页 |
| ·实验结果 | 第50-52页 |
| ·算法的局限性和可能的改进 | 第52-53页 |
| 第六章 结束语 | 第53-54页 |
| 参考文献 | 第54-56页 |
| 论文摘要 | 第56-58页 |
| ABSTRACT | 第58-60页 |
| 致谢 | 第60-61页 |
| 导师及作者简介 | 第61页 |