支持Ajax的Deep Web爬虫设计与实现

摘要	第3-5页
ABSTRACT	第5-6页
第一章绪论	第9-15页
1.1 引言	第9-10页
1.2 国内外研究现状	第10-13页
1.2.1 基于领域知识的爬虫技术	第11-12页
1.2.2 基于网页结构分析的爬虫技术	第12-13页
1.2.3 基于脚本语言分析的爬虫技术	第13页
1.3 研究内容及本文组织	第13-15页
第二章相关技术研究	第15-31页
2.1 HTML 简介	第15-16页
2.2 DEEP WEB简介	第16-19页
2.2.1 Deep Web 的概念	第16-18页
2.2.2 Deep Web 搜索技术	第18页
2.2.3 Deep Web 研究成果	第18-19页
2.3 WE82.0 影响	第19-23页
2.3.1 We62.0 的概念	第19-20页
2.3.2 We62.0 的原则	第20页
2.3.3 We62.0 的特征	第20-23页
2.4 AJAX 简介	第23-29页
2.4.1 Ajax 的诞生	第23-24页
2.4.2 Ajax 的基本原理	第24-26页
2.4.3 Ajax 的核心——XMLHttpRequest 对象	第26-28页
2.4.4 Ajax 的优缺点	第28-29页
2.5 Ajax 对信息获取的影响	第29-30页
2.6 本章小结	第30-31页
第三章支持AJAX 的DEEP WEB 爬虫总体设计	第31-38页
3.1 传统网络爬虫	第31-34页
3.1.1 体系结构	第31-32页
3.1.2 工作流程	第32页
3.1.3 网页抓取策略	第32-34页
3.1.4 传统网络爬虫的问题	第34页
3.2 支持AJAX 的爬虫	第34-37页
3.2.1 体系结构	第34-35页
3.2.2 工作流程	第35-36页
3.2.3 关键技术	第36-37页
3.3 本章小结	第37-38页
第四章支持AJAX 的DEEP WEB 爬虫具体实现	第38-51页
4.1 状态流图	第38-39页
4.2 爬行部分重要组成实现	第39-41页
4.3 自动扫描	第41-47页
4.3.1 察觉点击	第42页
4.3.2 比较DOM 树	第42-44页
4.3.3 处理差异更新	第44页
4.3.4 状态导航	第44-47页
4.3.5 识别同一状态	第47页
4.4 镜像网站生成	第47-50页
4.4.1 链接状态	第47-48页
4.4.2 将DOM 转换为HTML 表示	第48-49页
4.4.3 部署镜像网站	第49-50页
4.4.4 链接Ajax 网站	第50页
4.5 SITEMAP生成	第50页
4.6 本章小结	第50-51页
第五章实验及分析	第51-63页
5.1 实验环境	第51-52页
5.2 参数设置	第52-55页
5.3 实验及结果	第55-60页
5.4 结果分析	第60-62页
5.5 本章小结	第62-63页
第六章总结与展望	第63-65页
6.1 总结	第63-64页
6.2 不足与展望	第64-65页
参考文献	第65-67页
致谢	第67-68页
攻读硕士学位期间已发表或录用的论文	第68-70页