搜索引擎中网络爬虫的研究与实现

摘要	第1-4页
Abstract	第4-7页
第一章绪论	第7-11页
·研究背景及意义	第7-8页
·国内外现状分析	第8-9页
·论文研究内容	第9页
·论文组织结构	第9-11页
第二章相关技术分析与研究	第11-23页
·搜索引擎工作原理	第11-12页
·网页抓取算法	第12-15页
·广度优先遍历算法	第12-13页
·非完全的 PageRank 算法	第13-14页
·OPIC 算法	第14-15页
·网页去重 Bloom Filter 算法	第15-18页
·Bloom Filter 算法概述	第15-16页
·错误率估计	第16-17页
·最优的哈希函数个数	第17页
·位数组的大小	第17-18页
·半同步/半异步并发模式	第18-21页
·本章小结	第21-23页
第三章网络爬虫系统的总体设计	第23-33页
·网络爬虫的分析	第23-24页
·网络爬虫的组成部分	第23页
·网络爬虫的工作原理	第23-24页
·基于 Libevent 的爬虫系统线程模型设计	第24-29页
·Libevent 概述	第24-26页
·爬虫系统的线程机制	第26-29页
·网络爬虫系统的体系结构	第29-30页
·本章小结	第30-33页
第四章网络爬虫系统设计与实现	第33-47页
·请求连接模块	第33-38页
·客户端与服务器间的会话	第33-35页
·采用 Libevent 框架库的 I/O 多路复用	第35-38页
·数据分析模块	第38-41页
·ROBOTS.TXT 文件的分析	第38-39页
·HTML 页面的分析	第39-41页
·URL 管理模块	第41-45页
·URL 的多级队列管理	第41-43页
·URL 的去重	第43-44页
·URL 的 DNS 请求与管理	第44-45页
·URL 调度模块	第45-46页
·本章小结	第46-47页
第五章系统测试及分析	第47-51页
·简述	第47页
·测试过程	第47-48页
·测试环境	第47页
·测试方法	第47-48页
·测试结果及分析	第48-51页
·测试结果	第48页
·结果分析	第48-51页
第六章结束语	第51-53页
·论文工作总结	第51页
·后续工作展望	第51-53页
致谢	第53-55页
参考文献	第55-57页