基于文本聚类的网页消重算法研究

致谢	第1-6页
摘要	第6-7页
ABSTRACT	第7-11页
1 综述	第11-16页
·选题意义	第11-12页
·文本聚类的发展与现状	第12-13页
·网页消重的发展与现状	第13-15页
·论文的主要研究内容与结构安排	第15-16页
2 文本聚类技术的研究	第16-25页
·向量空间模型	第16-17页
·文本相似性度量	第17页
·特征选择	第17-21页
·基于阈值的特征选择方法	第18-19页
·基于映射的特征选择方法	第19-21页
·层次聚类算法	第21-22页
·划分聚类算法	第22-25页
3 网页消重技术的研究	第25-32页
·网页重复定义	第25-26页
·网页去噪	第26-27页
·国外常用的消重算法	第27-29页
·国内常用的消重算法	第29-32页
4 Bisecting Kmeans++聚类算法	第32-42页
·Bisecting Kmeans++算法描述	第32-33页
·Bisecting Kmeans++算法评测	第33-42页
·聚类结果的评估方式	第33-34页
·UCI数据集测试	第34-42页
5 基于最大正文块的网页消重算法	第42-55页
·DOM树	第42-44页
·DOM树概念	第42-43页
·HTML Tidy	第43-44页
·最大正文块算法	第44-47页
·最大正文块算法描述	第44-45页
·算法测试	第45-47页
·算法比较	第47-49页
·实体识别方法在近似网页检测中的应用	第49-55页
·应用背景	第49-51页
·实体识别方法介绍	第51-52页
·重复公司信息发现	第52-55页
6 结论	第55-57页
·总结	第55页
·下一步的工作和展望	第55-57页
参考文献	第57-60页
作者简历	第60-62页
学位论文数据集	第62页