首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

支持Ajax的Deep Web网络爬虫系统的设计与实现

摘要第5-6页
ABSTRACT第6-7页
第一章 绪论第13-18页
    1.1 课题背景及意义第13-14页
    1.2 网络爬虫国内外研究现状第14-16页
        1.2.1 国内研究现状第14-15页
        1.2.2 国外研究现状第15-16页
    1.3 本文研究的主要内容第16页
    1.4 论文结构安排第16-18页
第二章 网络爬虫、DEEP WEB、AJAX技术概述第18-25页
    2.1 网络爬虫简介第18-20页
        2.1.1 网络爬虫工作原理第18-19页
        2.1.2 网络爬虫抓取策略第19-20页
        2.1.3 网络爬虫分类第20页
    2.2 DEEP WEB及其搜索技术第20-21页
        2.2.1 Deep Web概述第20-21页
        2.2.2 Deep Web网络爬虫技术第21页
    2.3 AJAX技术简介第21-24页
        2.3.1 Ajax简介第21-22页
        2.3.2 Ajax工作原理第22-23页
        2.3.3 Ajax对网络爬虫的影响第23-24页
    2.4 本章小结第24-25页
第三章 支持AJAX的DEEP WEB网络爬虫系统的设计第25-34页
    3.1 需求分析第25-26页
        3.1.1 网络爬虫完整性要求第25页
        3.1.2 JavaScript解析以及DOM树重构第25-26页
        3.1.3 触发Ajax事件的模拟第26页
    3.2 总体设计第26-28页
    3.3 详细设计第28-33页
        3.3.1 生产线模块(Worker Line)第28-29页
        3.3.2 任务管理模块(Task manager)第29-30页
        3.3.3 URL调度模块(Scheduler)第30-31页
        3.3.4 网页抓取策略第31页
        3.3.5 Ajax页面抓取方案设计第31-33页
    3.4 本章小结第33-34页
第四章 支持AJAX的DEEP WEB网络爬虫系统的实现第34-47页
    4.1 网络爬虫SPIDEEP的系统实现第34-39页
        4.1.1 英文名词解释第34页
        4.1.2 总体架构的实现第34-36页
        4.1.3“工人”集合WorkerList第36-37页
        4.1.4 爬虫任务SpideepTask第37-38页
        4.1.5 链接SpideepURI第38页
        4.1.6 页面SpideepPage第38-39页
    4.2 AJAX页面抓取第39-41页
        4.2.1 无界面浏览器HtmlUnit简介第39-40页
        4.2.2 JavaScript解析第40-41页
        4.2.3 触发事件模拟第41页
    4.3 爬虫队列的实现第41-46页
        4.3.1 Berkeley DB简介第42页
        4.3.2 Berkeley DB实现持久化队列第42-43页
        4.3.3 爬虫队列具体实现第43-44页
        4.3.4 URL调度Spideep UriScheduler第44-46页
    4.4 本章小结第46-47页
第五章 实验与结果分析第47-51页
    5.1 实验环境第47页
    5.2 实验设置与方案第47-48页
        5.2.1 参数设置第47页
        5.2.2 实验方案第47-48页
    5.3 实验结果与分析第48-50页
    5.4 本章小结第50-51页
第六章 总结与展望第51-53页
    6.1 总结第51-52页
    6.2 展望第52-53页
参考文献第53-56页
致谢第56-57页
答辩委员会签名的答辩决议书第57页

论文共57页,点击 下载论文
上一篇:可充电协作认知无线网络的中断性能分析
下一篇:西藏体育旅游资源评价与开发研究