首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

面向AJAX脚本网络的网页爬行及解析技术的研究与实现

摘要第5-6页
Abstract第6-7页
第1章 绪论第11-17页
    1.1 研究背景与意义第11-12页
    1.2 国内外研究现状第12-13页
        1.2.1 国际研究现状第12-13页
        1.2.2 国内研究现状第13页
    1.3 问题提出第13-14页
    1.4 本文主要工作第14-15页
    1.5 本文组织结构第15-17页
第2章 相关理论与技术第17-27页
    2.1 WEB2.0第17-19页
        2.1.1 Web2.0简介第17-18页
        2.1.2 Web2.0的特点第18-19页
    2.2 AJAX技术概述第19-23页
        2.2.1 AJAX简介第19-20页
        2.2.2 AJAX的工作原理第20-21页
        2.2.3 AJAX在网页开发中的应用第21-23页
    2.3 网页结构分析技术第23-25页
        2.3.1 文档对象模型概述第23-24页
        2.3.2 XPath技术概述第24-25页
    2.4 本章小结第25-27页
第3章 AJAX动态网页数据获取模型构建第27-39页
    3.1 面向AJAX动态网页数据获取问题分析第27-33页
        3.1.1 AJAX动态站点模型分析第27-31页
        3.1.2 AJAX站点数据获取问题分析第31-33页
    3.2 面向AJAX动态网页的数据获取框架第33-34页
    3.3 面向AJAX动态网页的数据获取策略的分析与选择第34-37页
        3.3.1 深度优先爬行策略分析第34-35页
        3.3.2 广度优先爬行策略分析第35页
        3.3.3 爬行策略选择第35-37页
    3.4 面向AJAX动态网页的数据获取工作流程第37-38页
    3.5 本章小结第38-39页
第4章 面向AJAX的动态脚本网页解析第39-53页
    4.1 AJAX指纹识别第39-42页
        4.1.1 XMLHttpRequest对象概述第39-40页
        4.1.2 第三方框架匹配第40-42页
    4.2 备选标签集合选择第42-44页
        4.2.1 关于页面事件标签第42-43页
        4.2.2 动态页面标签集合的确定第43-44页
    4.3 页面表单处理第44-47页
        4.3.1 页面表单的识别第45-46页
        4.3.2 页面表单的自动填写第46-47页
    4.4 嵌入式解析引擎的选择第47-50页
        4.4.1 脚本解析引擎介绍第47页
        4.4.2 脚本解析引擎工作原理第47-49页
        4.4.3 Selenium技术优势第49-50页
    4.5 动态页面与事件类型的训练第50-52页
        4.5.1 网络站点结构相似性第50页
        4.5.2 训练算法描述第50-52页
    4.6 本章小结第52-53页
第5章 面向AJAX的动态网页数据获取第53-67页
    5.1 广度优先算法第53-55页
    5.2 识别页面状态变化第55-60页
        5.2.1 XMLHttpRequest对象的使用第55-56页
        5.2.2 DOM树过滤第56-57页
        5.2.3 DOM树相似性判断第57-60页
    5.3 页面状态转换的控制第60-65页
        5.3.1 状态转换图的构建与使用第60-62页
        5.3.2 路径存储仓库的定义第62-63页
        5.3.3 服务器端主动更新的处理第63-64页
        5.3.4 状态回溯算法描述第64-65页
    5.4 本章小结第65-67页
第6章 实验测试和分析第67-79页
    6.1 原型系统实现第67-69页
        6.1.1 原型系统软/硬件环境第67页
        6.1.2 原型系统功能模块第67-69页
    6.2 实验设置与评价机制第69-71页
        6.2.1 实验设置第69-70页
        6.2.2 实验评价机制第70-71页
    6.3 系统性能测试与结果分析第71-78页
        6.3.1 动态站点结构的实验结果与分析第71-73页
        6.3.2 与传统爬虫的比较分析第73页
        6.3.3 爬取召回率的结果分析第73-74页
        6.3.4 时间性能实验结果与分析第74-77页
        6.3.5 AJAX状态的存储第77-78页
    6.4 本章小结第78-79页
第7章 总结与展望第79-81页
    7.1 工作总结第79-80页
    7.2 未来工作第80-81页
参考文献第81-85页
致谢第85-87页
攻硕期间参与项目及发表的论文第87页

论文共87页,点击 下载论文
上一篇:基于Android的3G智能点餐系统的设计与实现
下一篇:多级罗茨干式真空泵的流动特性研究