面向垂直搜索的网络爬虫设计与实现

摘要	第3-4页
ABSTRACT	第4-5页
第一章绪论	第9-13页
1.1 背景与意义	第9-10页
1.2 本文研究内容及贡献	第10-12页
1.2.1 面临挑战	第10-11页
1.2.2 提出问题	第11页
1.2.3 解决方案	第11-12页
1.3 论文组织结构	第12-13页
第二章相关技术研究	第13-24页
2.1 搜索引擎相关技术	第13-17页
2.1.1 网络爬虫	第13-15页
2.1.2 索引技术	第15-16页
2.1.3 排序技术	第16-17页
2.2 本文用到的开源软件	第17-21页
2.2.1 Jsoup	第17-18页
2.2.2 Gson	第18-19页
2.2.3 Nginx	第19-20页
2.2.4 Varnish	第20页
2.2.5 Lighttpd	第20页
2.2.6 Tomcat	第20-21页
2.3 爬虫选型	第21-23页
2.3.1 Nutch	第21-22页
2.3.2 Heritrix	第22-23页
2.3.3 ChangyouSpider	第23页
2.4 本章小结	第23-24页
第三章畅邮系统架构设计	第24-29页
3.1 畅邮系统架构设计	第24-26页
3.2 服务器选型	第26-28页
3.2.1 负载均衡服务器	第26-27页
3.2.2 缓存服务器	第27页
3.2.3 web服务器	第27-28页
3.2.4 图片服务器	第28页
3.3 本章小结	第28-29页
第四章 Heritrix源码分析	第29-41页
4.1 Heritrix系统概况	第29-30页
4.2 Heritrix系统源码分析	第30-40页
4.2.1 Heritrix中央控制器	第30-32页
4.2.2 Heritrix调度器	第32-37页
4.2.3 Heritrix处理器链	第37-39页
4.2.4 Heritrix多线程	第39-40页
4.3 本章小结	第40-41页
第五章基于Heritrix爬虫系统的设计和实现	第41-59页
5.1 基于Heritrix的爬虫系统设计	第41-44页
5.1.1 图书搜索	第41-42页
5.1.2 视频搜索	第42-44页
5.2 基于Heritrix爬虫系统的实现	第44-55页
5.2.1 基于图书抓取的Heritrix的定制	第46-50页
5.2.2 基于视频抓取Heritrix的定制	第50-54页
5.2.3 异步加载网页的处理和抓取	第54-55页
5.3 抓取的更新策略	第55-56页
5.3.1 图书抓取更新策略	第55-56页
5.3.2 视频抓取更新策略	第56页
5.4 自动化抓取	第56-57页
5.5 爬虫报警机制	第57-58页
5.6 本章小结	第58-59页
第六章 ChangyouSpider系统的设计和实现	第59-63页
6.1 ChangyouSpider系统架构	第59-60页
6.2 ChangyouSpider工作流程	第60-61页
6.2.1 数据的抓取	第60-61页
6.2.2 数据的解析	第61页
6.2.3 数据的处理	第61页
6.3 ChangyouSpider自动化抓取	第61-62页
6.4 本章小结	第62-63页
第七章抓取数据的验证	第63-71页
7.1 测试环境	第63-64页
7.1.1 测试环境平台	第63页
7.1.2 测试指标和参数	第63-64页
7.2 爬虫系统功能和性能验证	第64-70页
7.2.1 抓取的全面性	第64-67页
7.2.2 抓取的杂质率	第67-68页
7.2.3 异步加载抓取的测试	第68-69页
7.2.4 链接有效性	第69-70页
7.3 本章小结	第70-71页
第八章总结与展望	第71-74页
8.1 本文工作总结	第71-72页
8.2 今后工作展望	第72-74页
参考文献	第74-77页
致谢	第77-78页
攻读学位期间发表的学术论文和科研情况	第78页