海量网页搜集系统的设计

中文摘要	第1-6页
ABSTRACT	第6-9页
第1章引言	第9-13页
·研究背景	第9-11页
·研究方案	第11-12页
·论文结构	第12-13页
第2章搜索引擎相关知识概述	第13-23页
·搜索引擎简介	第13-14页
·搜索引擎的分类	第14-16页
·基于爬虫的搜索引擎结构	第16-19页
·HTML语言介绍	第19页
·网页净化	第19-21页
·网页预处理简介	第21-22页
·信息预处理概述	第21页
·简单的预处理技术	第21-22页
·本章小结	第22-23页
第3章爬虫的体系结构	第23-29页
·爬虫的前提规范	第23-24页
·Web组织结构和爬虫的搜集策略	第24-25页
·HTTP协议工作过程	第25-26页
·网页数据库维护的策略	第26-27页
·集中式爬虫的搜集效率	第27页
·分布式爬虫的设计目标	第27-28页
·分布式策略	第28-29页
第4章海量网页搜集系统的设计	第29-41页
·原始网页预处理的策略	第29-30页
·网页预处理实现中的巴科斯范式	第29页
·网页预处理中的IE对HTML标签的解析方法	第29-30页
·爬虫的算法	第30-31页
·Bloom Filter算法	第31-33页
·分裂式Bloom Filter策略	第33-35页
·哈希表的查找算法	第35-36页
·URL顺序表转化策略	第36-37页
·基于哈希的URL存在性判断	第37页
·Bloom Filter的误称率	第37-39页
·Bloom Filter的误称率的推导	第37-38页
·Bloom Filter误称率的估计	第38-39页
·本章小结	第39-41页
第5章海量网页搜集系统的实现	第41-47页
·海量网页搜集系统网页预处理的实现	第41页
·爬虫算法的实现	第41-43页
·Bloom filter算法的实现	第43页
·分裂式Bloom filter算法的实现	第43-44页
·哈希表查找的实现	第44-45页
·本章小结	第45-47页
第6章系统测试结果与分析	第47-53页
·用户交互前台的性能测试	第47-48页
·单线程爬虫性能测试结果与分析	第48-50页
·网页预处理算法测试结果与分析	第50页
·测定网页中纯正文内容的比例测试结果与分析	第50-51页
·URL顺序表的效率测试结果与分析	第51页
·本章小结	第51-53页
第7章总结与展望	第53-55页
参考文献	第55-59页
致谢	第59页