首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于正文结构和长句提取的网页去重研究

中文摘要第1-4页
英文摘要第4-8页
1 引言第8-19页
   ·问题的提出及研究意义第8-9页
     ·问题的提出第8-9页
     ·研究的意义第9页
   ·起源与分类第9-11页
     ·网页去重算法起源第9-10页
     ·网页去重算法分类第10-11页
   ·国内外研究现状第11-15页
     ·基于聚类的网页去重算法第11-12页
     ·基于特征码的网页去重算法第12-14页
     ·基于签名的网页去重算法第14-15页
   ·论文主要工作及结论第15-17页
   ·论文结构第17-19页
2 重复网页第19-26页
   ·网络爬虫抓取的普通网页第19-20页
   ·重复网页定义第20-23页
     ·镜像网页的定义第21-22页
     ·近似镜像网页的定义第22-23页
   ·重复网页特征第23页
   ·重复网页净化第23-26页
3 正文结构树第26-35页
   ·网页要素抽取流程第26-27页
   ·网页的表示第27-29页
   ·网页要素抽取第29-32页
   ·正文结构树生成第32-35页
     ·正文结构树生成流程第32页
     ·段落信息的表示第32-33页
     ·正文结构表示形式的获取第33页
     ·权值赋值算法第33-34页
     ·建树算法第34-35页
4 基于正文结构和长句提取的网页去重系统第35-52页
   ·实验网页说明第35-38页
     ·实验网页格式类型说明第35-37页
     ·实验网页内容类型说明第37-38页
   ·网页去重系统流程第38-39页
   ·原始数据收集第39-43页
     ·URL 类第40-42页
     ·Page 类第42页
     ·与服务器建立连接第42-43页
   ·网页要素抽取第43-46页
   ·正文结构树的生成第46-49页
   ·网页指纹获取第49-50页
     ·长句提取算法第49页
     ·签名算法第49-50页
   ·层次指纹的相似度计算算法第50-52页
5 实验结果与分析第52-58页
   ·实验评估方法第52页
   ·实验结果第52-57页
     ·实验一第52-54页
     ·实验二第54-57页
   ·实验分析第57-58页
6 总结与展望第58-59页
致谢第59-60页
参考文献第60-63页
附录第63页
 作者在攻读学位期间发表的论文目录第63页

论文共63页,点击 下载论文
上一篇:语义Web服务目标递进组合方法的研究与应用
下一篇:基于JXTA的P2P网络搜索机制的研究