首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

支持动态页面的快速URL提取方法研究

摘要第4-5页
Abstract第5页
第1章 绪论第8-14页
    1.1 课题研究的背景和意义第8-9页
    1.2 国内外研究发展以及现状第9-11页
        1.2.1 动态页面解析的研究现状第9-10页
        1.2.2 网页去噪技术的研究现状第10-11页
    1.3 本文研究的主要内容第11-12页
    1.4 论文结构安排第12-14页
第2章 相关概念介绍第14-22页
    2.1 Web2.0 技术简介第14-15页
    2.2 网页页面相关概念第15-17页
        2.2.1 静态页面简介第15-16页
        2.2.2 动态页面简介第16-17页
    2.3 动态网页页面涉及的关键技术介绍第17-20页
        2.3.1 Ajax 技术基本原理第17-19页
        2.3.2 Ajax 技术引发的问题第19-20页
    2.4 性能评价指标第20-21页
    2.5 本章小结第21-22页
第3章 支持动态页面的网络爬虫系统设计第22-31页
    3.1 网络爬虫简介第22-26页
        3.1.1 网络爬虫体系结构第22-23页
        3.1.2 网络爬虫工作原理第23-24页
        3.1.3 网络爬虫搜索策略第24-26页
    3.2 支持动态页面网络爬虫系统设计第26-29页
        3.2.1 系统架构设计第26-28页
        3.2.2 系统技术难点第28-29页
    3.3 支持动态页面涉及的关键技术第29-30页
        3.3.1 脚本的解析第29页
        3.3.2 浏览器对象第29-30页
    3.4 本章小结第30-31页
第4章 页面超链接快速提取算法第31-42页
    4.1 噪声链接分析第31-32页
        4.1.1 噪声链接简介第31页
        4.1.2 URL 提取效率分析第31-32页
    4.2 直接去噪声链接算法第32-33页
        4.2.1 页面 DOM 树结构特征第32页
        4.2.2 基于 DOM 树的方法第32-33页
    4.3 基于聚类的噪声链接去除方法第33-39页
        4.3.1 噪声链接簇的识别第34页
        4.3.2 K-means 聚类算法第34-36页
        4.3.3 Single-Pass 算法第36-38页
        4.3.4 基于改进 Single-Pass 算法的噪声链接去除算法第38-39页
    4.4 实验结果与分析第39-41页
    4.5 本章小结第41-42页
第5章 支持动态页面快速 URL 提取系统的实现第42-56页
    5.1 页面采集模块第42-44页
        5.1.1 HTTP 协议简介第42-44页
        5.1.2 页面的采集第44页
    5.2 页面解析模块第44-47页
        5.2.1 脚本嵌入的方式第44-46页
        5.2.2 URL 的提取第46-47页
    5.3 页面 DOM 支持模块第47-48页
        5.3.1 Jsoup 简介第47页
        5.3.2 DOM 树构建与操作第47-48页
    5.4 事件触发模拟模块第48-51页
        5.4.1 HtmlUnit 简介第48-49页
        5.4.2 脚本事件触发的处理第49-51页
    5.5 页面生成模块第51-52页
    5.6 实验结果分析第52-54页
    5.7 本章小结第54-56页
结论第56-58页
参考文献第58-62页
致谢第62页

论文共62页,点击 下载论文
上一篇:基于贝叶斯网权限图的网络安全评估方法研究
下一篇:城市环境卫生管理信息系统的设计与实现