支持Ajax的Deep Web网络爬虫系统的设计与实现

摘要	第5-6页
ABSTRACT	第6-7页
第一章绪论	第13-18页
1.1 课题背景及意义	第13-14页
1.2 网络爬虫国内外研究现状	第14-16页
1.2.1 国内研究现状	第14-15页
1.2.2 国外研究现状	第15-16页
1.3 本文研究的主要内容	第16页
1.4 论文结构安排	第16-18页
第二章网络爬虫、DEEP WEB、AJAX技术概述	第18-25页
2.1 网络爬虫简介	第18-20页
2.1.1 网络爬虫工作原理	第18-19页
2.1.2 网络爬虫抓取策略	第19-20页
2.1.3 网络爬虫分类	第20页
2.2 DEEP WEB及其搜索技术	第20-21页
2.2.1 Deep Web概述	第20-21页
2.2.2 Deep Web网络爬虫技术	第21页
2.3 AJAX技术简介	第21-24页
2.3.1 Ajax简介	第21-22页
2.3.2 Ajax工作原理	第22-23页
2.3.3 Ajax对网络爬虫的影响	第23-24页
2.4 本章小结	第24-25页
第三章支持AJAX的DEEP WEB网络爬虫系统的设计	第25-34页
3.1 需求分析	第25-26页
3.1.1 网络爬虫完整性要求	第25页
3.1.2 JavaScript解析以及DOM树重构	第25-26页
3.1.3 触发Ajax事件的模拟	第26页
3.2 总体设计	第26-28页
3.3 详细设计	第28-33页
3.3.1 生产线模块（Worker Line）	第28-29页
3.3.2 任务管理模块（Task manager）	第29-30页
3.3.3 URL调度模块（Scheduler）	第30-31页
3.3.4 网页抓取策略	第31页
3.3.5 Ajax页面抓取方案设计	第31-33页
3.4 本章小结	第33-34页
第四章支持AJAX的DEEP WEB网络爬虫系统的实现	第34-47页
4.1 网络爬虫SPIDEEP的系统实现	第34-39页
4.1.1 英文名词解释	第34页
4.1.2 总体架构的实现	第34-36页
4.1.3“工人”集合WorkerList	第36-37页
4.1.4 爬虫任务SpideepTask	第37-38页
4.1.5 链接SpideepURI	第38页
4.1.6 页面SpideepPage	第38-39页
4.2 AJAX页面抓取	第39-41页
4.2.1 无界面浏览器HtmlUnit简介	第39-40页
4.2.2 JavaScript解析	第40-41页
4.2.3 触发事件模拟	第41页
4.3 爬虫队列的实现	第41-46页
4.3.1 Berkeley DB简介	第42页
4.3.2 Berkeley DB实现持久化队列	第42-43页
4.3.3 爬虫队列具体实现	第43-44页
4.3.4 URL调度Spideep UriScheduler	第44-46页
4.4 本章小结	第46-47页
第五章实验与结果分析	第47-51页
5.1 实验环境	第47页
5.2 实验设置与方案	第47-48页
5.2.1 参数设置	第47页
5.2.2 实验方案	第47-48页
5.3 实验结果与分析	第48-50页
5.4 本章小结	第50-51页
第六章总结与展望	第51-53页
6.1 总结	第51-52页
6.2 展望	第52-53页
参考文献	第53-56页
致谢	第56-57页
答辩委员会签名的答辩决议书	第57页