首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于文本结构的近似镜像网页去重

中文摘要第1-10页
ABSTRACT第10-12页
第一章 引言第12-17页
   ·研究背景第12-14页
   ·研究现状及分析第14-16页
     ·近似镜像网页去重的研究历史第14-15页
     ·现有近似镜像网页去重方法的分析第15-16页
       ·基于内容的近似镜像网页去重第15页
       ·基于链接的近似镜像网页去重第15-16页
       ·基于链接信息的近似镜像网页去重第16页
   ·论文的主要工作及结果第16页
   ·论文结构第16-17页
第二章 近似镜像网页的分析及表示第17-24页
   ·近似镜像网页的定义第17-18页
     ·镜像网页的定义第17页
     ·近似镜像网页的定义第17-18页
   ·近似镜像网页的分析第18-20页
     ·近似镜像网页重复特点的分析第18页
     ·近似镜像网页正文结构的分析第18-20页
   ·近似镜像网页的表示第20-21页
   ·网页正文结构的树型表示第21-24页
第三章 正文结构树的生成第24-32页
   ·网页正文结构树生成的流程第24-25页
   ·段落信息表的建立第25页
   ·小标题编号和HTML标签的识别第25-28页
   ·短段落标题识别算法第28-29页
   ·正文结构表现形式获取算法第29-30页
   ·权值分配第30-31页
   ·正文结构树生成算法第31-32页
第四章 近似镜像网页去重第32-38页
   ·数字签名及MD5算法介绍第32-35页
   ·近似镜像网页的检测与去重第35-38页
     ·标题相似度的计算第36页
     ·正文相似度的计算第36-38页
第五章 实验结果和结论第38-41页
   ·评价指标第38页
   ·实验结果与结论第38-39页
   ·同现有方法的比较第39-40页
   ·进一步的工作第40-41页
参考文献第41-46页
致谢第46-47页
发表文章目录第47-48页
个人简况第48-49页

论文共49页,点击 下载论文
上一篇:彩报印刷墨色预置控制系统的设计与研究
下一篇:数据挖掘技术在科技电子政务中的应用研究