支持动态页面的快速URL提取方法研究

摘要	第4-5页
Abstract	第5页
第1章绪论	第8-14页
1.1 课题研究的背景和意义	第8-9页
1.2 国内外研究发展以及现状	第9-11页
1.2.1 动态页面解析的研究现状	第9-10页
1.2.2 网页去噪技术的研究现状	第10-11页
1.3 本文研究的主要内容	第11-12页
1.4 论文结构安排	第12-14页
第2章相关概念介绍	第14-22页
2.1 Web2.0 技术简介	第14-15页
2.2 网页页面相关概念	第15-17页
2.2.1 静态页面简介	第15-16页
2.2.2 动态页面简介	第16-17页
2.3 动态网页页面涉及的关键技术介绍	第17-20页
2.3.1 Ajax 技术基本原理	第17-19页
2.3.2 Ajax 技术引发的问题	第19-20页
2.4 性能评价指标	第20-21页
2.5 本章小结	第21-22页
第3章支持动态页面的网络爬虫系统设计	第22-31页
3.1 网络爬虫简介	第22-26页
3.1.1 网络爬虫体系结构	第22-23页
3.1.2 网络爬虫工作原理	第23-24页
3.1.3 网络爬虫搜索策略	第24-26页
3.2 支持动态页面网络爬虫系统设计	第26-29页
3.2.1 系统架构设计	第26-28页
3.2.2 系统技术难点	第28-29页
3.3 支持动态页面涉及的关键技术	第29-30页
3.3.1 脚本的解析	第29页
3.3.2 浏览器对象	第29-30页
3.4 本章小结	第30-31页
第4章页面超链接快速提取算法	第31-42页
4.1 噪声链接分析	第31-32页
4.1.1 噪声链接简介	第31页
4.1.2 URL 提取效率分析	第31-32页
4.2 直接去噪声链接算法	第32-33页
4.2.1 页面 DOM 树结构特征	第32页
4.2.2 基于 DOM 树的方法	第32-33页
4.3 基于聚类的噪声链接去除方法	第33-39页
4.3.1 噪声链接簇的识别	第34页
4.3.2 K-means 聚类算法	第34-36页
4.3.3 Single-Pass 算法	第36-38页
4.3.4 基于改进 Single-Pass 算法的噪声链接去除算法	第38-39页
4.4 实验结果与分析	第39-41页
4.5 本章小结	第41-42页
第5章支持动态页面快速 URL 提取系统的实现	第42-56页
5.1 页面采集模块	第42-44页
5.1.1 HTTP 协议简介	第42-44页
5.1.2 页面的采集	第44页
5.2 页面解析模块	第44-47页
5.2.1 脚本嵌入的方式	第44-46页
5.2.2 URL 的提取	第46-47页
5.3 页面 DOM 支持模块	第47-48页
5.3.1 Jsoup 简介	第47页
5.3.2 DOM 树构建与操作	第47-48页
5.4 事件触发模拟模块	第48-51页
5.4.1 HtmlUnit 简介	第48-49页
5.4.2 脚本事件触发的处理	第49-51页
5.5 页面生成模块	第51-52页
5.6 实验结果分析	第52-54页
5.7 本章小结	第54-56页
结论	第56-58页
参考文献	第58-62页
致谢	第62页