摘要 | 第4-5页 |
ABSTRACT | 第5页 |
第一章 绪论 | 第10-17页 |
1.1 项目背景 | 第10-11页 |
1.2 研究现状 | 第11-12页 |
1.3 主要工作和研究内容 | 第12-15页 |
1.4 创新点和关键技术 | 第15页 |
1.5 论文结构 | 第15-17页 |
第二章 相关技术介绍 | 第17-30页 |
2.1 主题相关度计算 | 第17-23页 |
2.1.1 TF-IDF | 第17-18页 |
2.1.2 LDA | 第18-21页 |
2.1.3 SVM分类器 | 第21-23页 |
2.2 分布式消息队列服务 | 第23-24页 |
2.3 Easy框架 | 第24-25页 |
2.4 JavaScript执行引擎 | 第25-26页 |
2.5 SSDB | 第26-29页 |
2.6 本章小结 | 第29-30页 |
第三章 智能爬虫的核心技术研究和设计 | 第30-45页 |
3.1 主题相关性算法的设计 | 第30-32页 |
3.2 应对反爬虫策略的设计 | 第32-40页 |
3.2.1 HTTP代理的智能筛选策略 | 第33-35页 |
3.2.2 爬虫针对站点的频率控制 | 第35-37页 |
3.2.3 网站分类并建立规则库 | 第37-39页 |
3.2.4 网站封禁状态的识别 | 第39-40页 |
3.3 海量URL去重方法的设计 | 第40-44页 |
3.3.1 基于哈希表的去重 | 第40页 |
3.3.2 基于Redis的URL去重 | 第40页 |
3.3.3 基于Bloom filter的去重 | 第40-42页 |
3.3.4 基于SSDB和Bloom filter的两层三实例解决方案 | 第42-44页 |
3.4 本章小结 | 第44-45页 |
第四章 智能爬虫系统的实现 | 第45-75页 |
4.1 系统总体架构设计 | 第45-46页 |
4.2 高并发分布式通用下载器的实现 | 第46-53页 |
4.2.1 下载器的初始化 | 第47-48页 |
4.2.2 URL的获取 | 第48-50页 |
4.2.3 DNS的解析与缓存 | 第50页 |
4.2.4 连接的建立和数据准备 | 第50-51页 |
4.2.5 数据交换和输出 | 第51-52页 |
4.2.6 命令行输入和统计 | 第52-53页 |
4.3 其他订制下载器的实现 | 第53-56页 |
4.3.1 爬虫的配置和工具 | 第53-54页 |
4.3.2 需登录网站的处理 | 第54页 |
4.3.3 元搜索引擎 | 第54-55页 |
4.3.4 动态网页爬虫的实现 | 第55-56页 |
4.4 网页解析器的实现 | 第56-68页 |
4.4.1 框架流程 | 第57页 |
4.4.2 网页数据的获取和编码转换 | 第57-58页 |
4.4.3 模板引擎 | 第58-59页 |
4.4.4 页面核心内容和摘要的提取 | 第59-61页 |
4.4.5 页面链接获取 | 第61页 |
4.4.6 页面主题相关度计算 | 第61-63页 |
4.4.7 网页倾向性分析 | 第63-68页 |
4.5 调度器的实现 | 第68-74页 |
4.5.1 URL的统计和代理的添加 | 第70-71页 |
4.5.2 导航页的检查与更新 | 第71-72页 |
4.5.3 URL的去重 | 第72-74页 |
4.5.4 URL的调度 | 第74页 |
4.5.5 网页内容的输出 | 第74页 |
4.6 本章小结 | 第74-75页 |
第五章 系统搭建及测试 | 第75-86页 |
5.1 系统环境与部署说明 | 第75-78页 |
5.2 智能爬虫的测试 | 第78-85页 |
5.2.1 测试脚本 | 第78页 |
5.2.2 智能爬虫基本测试 | 第78-81页 |
5.2.3 智能爬虫核心测试 | 第81-85页 |
5.3 本章小结 | 第85-86页 |
第六章 结束语 | 第86-88页 |
6.1 论文总结 | 第86页 |
6.2 下一步研究工作 | 第86-88页 |
参考文献 | 第88-92页 |
致谢 | 第92-93页 |
攻读学位期间发表的学术论文目录 | 第93页 |