首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于文本聚类的网页消重算法研究

致谢第1-6页
摘要第6-7页
ABSTRACT第7-11页
1 综述第11-16页
   ·选题意义第11-12页
   ·文本聚类的发展与现状第12-13页
   ·网页消重的发展与现状第13-15页
   ·论文的主要研究内容与结构安排第15-16页
2 文本聚类技术的研究第16-25页
   ·向量空间模型第16-17页
   ·文本相似性度量第17页
   ·特征选择第17-21页
     ·基于阈值的特征选择方法第18-19页
     ·基于映射的特征选择方法第19-21页
   ·层次聚类算法第21-22页
   ·划分聚类算法第22-25页
3 网页消重技术的研究第25-32页
   ·网页重复定义第25-26页
   ·网页去噪第26-27页
   ·国外常用的消重算法第27-29页
   ·国内常用的消重算法第29-32页
4 Bisecting Kmeans++聚类算法第32-42页
   ·Bisecting Kmeans++算法描述第32-33页
   ·Bisecting Kmeans++算法评测第33-42页
     ·聚类结果的评估方式第33-34页
     ·UCI数据集测试第34-42页
5 基于最大正文块的网页消重算法第42-55页
   ·DOM树第42-44页
     ·DOM树概念第42-43页
     ·HTML Tidy第43-44页
   ·最大正文块算法第44-47页
     ·最大正文块算法描述第44-45页
     ·算法测试第45-47页
   ·算法比较第47-49页
   ·实体识别方法在近似网页检测中的应用第49-55页
     ·应用背景第49-51页
     ·实体识别方法介绍第51-52页
     ·重复公司信息发现第52-55页
6 结论第55-57页
   ·总结第55页
   ·下一步的工作和展望第55-57页
参考文献第57-60页
作者简历第60-62页
学位论文数据集第62页

论文共62页,点击 下载论文
上一篇:内燃机摩擦学设计软件主框架的设计和实现
下一篇:Ad Hoc网络关键技术研究