基于布隆过滤器算法的网页消重技术的实现与应用
致谢 | 第1-6页 |
中文摘要 | 第6-7页 |
ABSTRACT | 第7-10页 |
1 绪论 | 第10-17页 |
·知识背景 | 第10-13页 |
·重复网页定义 | 第10-12页 |
·产生重复网页的原因 | 第12-13页 |
·消除重复网页的意义 | 第13页 |
·项目背景 | 第13-14页 |
·网页消重技术的国内外研究现状 | 第14-15页 |
·论文内容与组织 | 第15-16页 |
·本章小结 | 第16-17页 |
2 网络爬虫的设计与实现 | 第17-32页 |
·网络爬虫作用 | 第17-18页 |
·通用网络爬虫 | 第18-20页 |
·通用网络爬虫的基本结构 | 第18-20页 |
·通用网络爬虫的爬行策略 | 第20页 |
·本文爬虫的操作目标 | 第20-21页 |
·爬虫的设计与实现 | 第21-24页 |
·网页URL消重实现 | 第24-31页 |
·常用URL消重算法简介 | 第25页 |
·布隆过滤器算法简述 | 第25-27页 |
·基于布隆过滤器算法的网页URL消重的实现 | 第27-31页 |
·URL消重效果数据展示 | 第31页 |
·本章小结 | 第31-32页 |
3 网页正文内容提取技术实现 | 第32-38页 |
·文本内容提取技术介绍 | 第32-33页 |
·文内容提取技术实现 | 第33-36页 |
·相关技术介绍 | 第34-35页 |
·文本信息提取的实现 | 第35-36页 |
·本章小结 | 第36-38页 |
4 网页内容消重的实现 | 第38-50页 |
·网页消重算法简介 | 第38-40页 |
·针对网页内容的消重算法实现 | 第40-49页 |
·变长分块 | 第40-44页 |
·Bloom Filter的生成 | 第44-45页 |
·网页消重实现 | 第45-48页 |
·消重效果数据展示 | 第48-49页 |
·本章小结 | 第49-50页 |
5 总结与展望 | 第50-51页 |
·全文工作总结 | 第50页 |
·进一步的工作 | 第50-51页 |
参考文献 | 第51-54页 |
学位论文数据集 | 第54页 |