首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于布隆过滤器算法的网页消重技术的实现与应用

致谢第1-6页
中文摘要第6-7页
ABSTRACT第7-10页
1 绪论第10-17页
   ·知识背景第10-13页
     ·重复网页定义第10-12页
     ·产生重复网页的原因第12-13页
     ·消除重复网页的意义第13页
   ·项目背景第13-14页
   ·网页消重技术的国内外研究现状第14-15页
   ·论文内容与组织第15-16页
   ·本章小结第16-17页
2 网络爬虫的设计与实现第17-32页
   ·网络爬虫作用第17-18页
   ·通用网络爬虫第18-20页
     ·通用网络爬虫的基本结构第18-20页
     ·通用网络爬虫的爬行策略第20页
   ·本文爬虫的操作目标第20-21页
   ·爬虫的设计与实现第21-24页
   ·网页URL消重实现第24-31页
     ·常用URL消重算法简介第25页
     ·布隆过滤器算法简述第25-27页
     ·基于布隆过滤器算法的网页URL消重的实现第27-31页
     ·URL消重效果数据展示第31页
   ·本章小结第31-32页
3 网页正文内容提取技术实现第32-38页
   ·文本内容提取技术介绍第32-33页
   ·文内容提取技术实现第33-36页
     ·相关技术介绍第34-35页
     ·文本信息提取的实现第35-36页
   ·本章小结第36-38页
4 网页内容消重的实现第38-50页
   ·网页消重算法简介第38-40页
   ·针对网页内容的消重算法实现第40-49页
     ·变长分块第40-44页
     ·Bloom Filter的生成第44-45页
     ·网页消重实现第45-48页
     ·消重效果数据展示第48-49页
   ·本章小结第49-50页
5 总结与展望第50-51页
   ·全文工作总结第50页
   ·进一步的工作第50-51页
参考文献第51-54页
学位论文数据集第54页

论文共54页,点击 下载论文
上一篇:线性型分数扩散过程参数估计的大偏差问题
下一篇:一维非弹性Kac方程经典解的存在唯一性