分布式智能网络爬虫的设计与实现

摘要	第5-6页
Abstract	第6-7页
第一章绪论	第10-16页
1.1 研究背景及意义	第10-11页
1.2 本课题的研究进展	第11-13页
1.2.1 相关爬虫的特点	第11-12页
1.2.2 Web信息抽取	第12-13页
1.3 本课题主要研究内容	第13-16页
第二章相关理论与技术	第16-28页
2.1 网络爬虫	第16-19页
2.1.1 爬虫基本原理及结构	第16-17页
2.1.2 礼貌采集	第17页
2.1.3 网络爬虫分类	第17-19页
2.2 网页采集策略	第19-20页
2.2.1 广度优先策略	第19页
2.2.2 深度优先策略	第19-20页
2.2.3 最佳优先策略	第20页
2.3 DNS缓存	第20-21页
2.4 URL去重技术	第21页
2.5 一致性哈希算法	第21-23页
2.6 深层网络采集技术	第23-24页
2.6.1 动态页面渲染技术	第23-24页
2.6.2 自动导航技术	第24页
2.7 分布式文件系统	第24-26页
2.8 本章小结	第26-28页
第三章分布式智能网络爬虫系统设计	第28-34页
3.1 系统设计目标	第28页
3.2 系统整体设计	第28-31页
3.2.1 设计基本思路	第28-29页
3.2.2 系统整体架构	第29-30页
3.2.3 网站采集处理流程	第30-31页
3.3 系统主要模块功能划分	第31-33页
3.4 本章小结	第33-34页
第四章分布式智能网络爬虫系统实现	第34-76页
4.1 种子调度模块实现	第34-38页
4.1.1 种子智能调度实现原理	第34-37页
4.1.2 种子智能调度算法实现	第37-38页
4.2 种子智能分析模块实现	第38-52页
4.2.1 种子智能分析的原理	第39-40页
4.2.2 种子智能分析算法实现	第40-52页
4.3 URL去重模块实现	第52-54页
4.4 网页下载器模块实现	第54-61页
4.4.1 下载器模块的结构实现	第55-57页
4.4.2 下载器模块智能线程执行器实现	第57-58页
4.4.3 下载器模块DNS缓存实现	第58-60页
4.4.4 下载器动态页面渲染实现	第60-61页
4.5 网页自动导航浏览技术实现	第61-65页
4.6 网页抽取模块实现	第65-66页
4.7 数据存储模块实现	第66-71页
4.7.1 数据储存架构	第67-70页
4.7.2 采集数据存储	第70-71页
4.8 智能监控模块实现	第71-74页
4.9 本章小结	第74-76页
第五章系统测试和分析	第76-84页
5.1 系统部署环境	第76-77页
5.2 系统功能测试	第77-79页
5.3 系统性能测试与分析	第79-82页
5.4 本章小结	第82-84页
第六章结论与展望	第84-86页
6.1 论文工作总结	第84-85页
6.2 未来工作展望	第85-86页
参考文献	第86-90页
致谢	第90-92页
个人简历	第92页