基于布隆过滤器算法的网页消重技术的实现与应用
| 致谢 | 第1-6页 |
| 中文摘要 | 第6-7页 |
| ABSTRACT | 第7-10页 |
| 1 绪论 | 第10-17页 |
| ·知识背景 | 第10-13页 |
| ·重复网页定义 | 第10-12页 |
| ·产生重复网页的原因 | 第12-13页 |
| ·消除重复网页的意义 | 第13页 |
| ·项目背景 | 第13-14页 |
| ·网页消重技术的国内外研究现状 | 第14-15页 |
| ·论文内容与组织 | 第15-16页 |
| ·本章小结 | 第16-17页 |
| 2 网络爬虫的设计与实现 | 第17-32页 |
| ·网络爬虫作用 | 第17-18页 |
| ·通用网络爬虫 | 第18-20页 |
| ·通用网络爬虫的基本结构 | 第18-20页 |
| ·通用网络爬虫的爬行策略 | 第20页 |
| ·本文爬虫的操作目标 | 第20-21页 |
| ·爬虫的设计与实现 | 第21-24页 |
| ·网页URL消重实现 | 第24-31页 |
| ·常用URL消重算法简介 | 第25页 |
| ·布隆过滤器算法简述 | 第25-27页 |
| ·基于布隆过滤器算法的网页URL消重的实现 | 第27-31页 |
| ·URL消重效果数据展示 | 第31页 |
| ·本章小结 | 第31-32页 |
| 3 网页正文内容提取技术实现 | 第32-38页 |
| ·文本内容提取技术介绍 | 第32-33页 |
| ·文内容提取技术实现 | 第33-36页 |
| ·相关技术介绍 | 第34-35页 |
| ·文本信息提取的实现 | 第35-36页 |
| ·本章小结 | 第36-38页 |
| 4 网页内容消重的实现 | 第38-50页 |
| ·网页消重算法简介 | 第38-40页 |
| ·针对网页内容的消重算法实现 | 第40-49页 |
| ·变长分块 | 第40-44页 |
| ·Bloom Filter的生成 | 第44-45页 |
| ·网页消重实现 | 第45-48页 |
| ·消重效果数据展示 | 第48-49页 |
| ·本章小结 | 第49-50页 |
| 5 总结与展望 | 第50-51页 |
| ·全文工作总结 | 第50页 |
| ·进一步的工作 | 第50-51页 |
| 参考文献 | 第51-54页 |
| 学位论文数据集 | 第54页 |