垂直搜索引擎中智能爬虫系统的研究与实现

摘要	第4-5页
ABSTRACT	第5页
第一章绪论	第10-17页
1.1 项目背景	第10-11页
1.2 研究现状	第11-12页
1.3 主要工作和研究内容	第12-15页
1.4 创新点和关键技术	第15页
1.5 论文结构	第15-17页
第二章相关技术介绍	第17-30页
2.1 主题相关度计算	第17-23页
2.1.1 TF-IDF	第17-18页
2.1.2 LDA	第18-21页
2.1.3 SVM分类器	第21-23页
2.2 分布式消息队列服务	第23-24页
2.3 Easy框架	第24-25页
2.4 JavaScript执行引擎	第25-26页
2.5 SSDB	第26-29页
2.6 本章小结	第29-30页
第三章智能爬虫的核心技术研究和设计	第30-45页
3.1 主题相关性算法的设计	第30-32页
3.2 应对反爬虫策略的设计	第32-40页
3.2.1 HTTP代理的智能筛选策略	第33-35页
3.2.2 爬虫针对站点的频率控制	第35-37页
3.2.3 网站分类并建立规则库	第37-39页
3.2.4 网站封禁状态的识别	第39-40页
3.3 海量URL去重方法的设计	第40-44页
3.3.1 基于哈希表的去重	第40页
3.3.2 基于Redis的URL去重	第40页
3.3.3 基于Bloom filter的去重	第40-42页
3.3.4 基于SSDB和Bloom filter的两层三实例解决方案	第42-44页
3.4 本章小结	第44-45页
第四章智能爬虫系统的实现	第45-75页
4.1 系统总体架构设计	第45-46页
4.2 高并发分布式通用下载器的实现	第46-53页
4.2.1 下载器的初始化	第47-48页
4.2.2 URL的获取	第48-50页
4.2.3 DNS的解析与缓存	第50页
4.2.4 连接的建立和数据准备	第50-51页
4.2.5 数据交换和输出	第51-52页
4.2.6 命令行输入和统计	第52-53页
4.3 其他订制下载器的实现	第53-56页
4.3.1 爬虫的配置和工具	第53-54页
4.3.2 需登录网站的处理	第54页
4.3.3 元搜索引擎	第54-55页
4.3.4 动态网页爬虫的实现	第55-56页
4.4 网页解析器的实现	第56-68页
4.4.1 框架流程	第57页
4.4.2 网页数据的获取和编码转换	第57-58页
4.4.3 模板引擎	第58-59页
4.4.4 页面核心内容和摘要的提取	第59-61页
4.4.5 页面链接获取	第61页
4.4.6 页面主题相关度计算	第61-63页
4.4.7 网页倾向性分析	第63-68页
4.5 调度器的实现	第68-74页
4.5.1 URL的统计和代理的添加	第70-71页
4.5.2 导航页的检查与更新	第71-72页
4.5.3 URL的去重	第72-74页
4.5.4 URL的调度	第74页
4.5.5 网页内容的输出	第74页
4.6 本章小结	第74-75页
第五章系统搭建及测试	第75-86页
5.1 系统环境与部署说明	第75-78页
5.2 智能爬虫的测试	第78-85页
5.2.1 测试脚本	第78页
5.2.2 智能爬虫基本测试	第78-81页
5.2.3 智能爬虫核心测试	第81-85页
5.3 本章小结	第85-86页
第六章结束语	第86-88页
6.1 论文总结	第86页
6.2 下一步研究工作	第86-88页
参考文献	第88-92页
致谢	第92-93页
攻读学位期间发表的学术论文目录	第93页