首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

支持Ajax的Deep Web爬虫设计与实现

摘要第3-5页
ABSTRACT第5-6页
第一章 绪论第9-15页
    1.1 引言第9-10页
    1.2 国内外研究现状第10-13页
        1.2.1 基于领域知识的爬虫技术第11-12页
        1.2.2 基于网页结构分析的爬虫技术第12-13页
        1.2.3 基于脚本语言分析的爬虫技术第13页
    1.3 研究内容及本文组织第13-15页
第二章 相关技术研究第15-31页
    2.1 HTML 简介第15-16页
    2.2 DEEP WEB简介第16-19页
        2.2.1 Deep Web 的概念第16-18页
        2.2.2 Deep Web 搜索技术第18页
        2.2.3 Deep Web 研究成果第18-19页
    2.3 WE82.0 影响第19-23页
        2.3.1 We62.0 的概念第19-20页
        2.3.2 We62.0 的原则第20页
        2.3.3 We62.0 的特征第20-23页
    2.4 AJAX 简介第23-29页
        2.4.1 Ajax 的诞生第23-24页
        2.4.2 Ajax 的基本原理第24-26页
        2.4.3 Ajax 的核心——XMLHttpRequest 对象第26-28页
        2.4.4 Ajax 的优缺点第28-29页
    2.5 Ajax 对信息获取的影响第29-30页
    2.6 本章小结第30-31页
第三章 支持AJAX 的DEEP WEB 爬虫总体设计第31-38页
    3.1 传统网络爬虫第31-34页
        3.1.1 体系结构第31-32页
        3.1.2 工作流程第32页
        3.1.3 网页抓取策略第32-34页
        3.1.4 传统网络爬虫的问题第34页
    3.2 支持AJAX 的爬虫第34-37页
        3.2.1 体系结构第34-35页
        3.2.2 工作流程第35-36页
        3.2.3 关键技术第36-37页
    3.3 本章小结第37-38页
第四章 支持AJAX 的DEEP WEB 爬虫具体实现第38-51页
    4.1 状态流图第38-39页
    4.2 爬行部分重要组成实现第39-41页
    4.3 自动扫描第41-47页
        4.3.1 察觉点击第42页
        4.3.2 比较DOM 树第42-44页
        4.3.3 处理差异更新第44页
        4.3.4 状态导航第44-47页
        4.3.5 识别同一状态第47页
    4.4 镜像网站生成第47-50页
        4.4.1 链接状态第47-48页
        4.4.2 将DOM 转换为HTML 表示第48-49页
        4.4.3 部署镜像网站第49-50页
        4.4.4 链接Ajax 网站第50页
    4.5 SITEMAP生成第50页
    4.6 本章小结第50-51页
第五章 实验及分析第51-63页
    5.1 实验环境第51-52页
    5.2 参数设置第52-55页
    5.3 实验及结果第55-60页
    5.4 结果分析第60-62页
    5.5 本章小结第62-63页
第六章 总结与展望第63-65页
    6.1 总结第63-64页
    6.2 不足与展望第64-65页
参考文献第65-67页
致谢第67-68页
攻读硕士学位期间已发表或录用的论文第68-70页

论文共70页,点击 下载论文
上一篇:简历及软件需求信息抽取方法研究
下一篇:论卡森·麦卡勒斯作品中人物的性别跨越