首页--工业技术论文--自动化技术、计算机技术论文--自动化技术及设备论文--自动化系统论文--数据处理、数据处理系统论文

基于网络爬虫的数据采集系统设计与实现

摘要第5-6页
Abstract第6页
第1章 绪论第9-13页
    1.1 研究背景与意义第9-10页
    1.2 国内外研究现状第10-12页
        1.2.1 Web信息采集研究现状第10页
        1.2.2 主题爬虫研究进展第10-11页
        1.2.3 主题爬虫研究趋势第11-12页
    1.3 主要工作第12页
    1.4 论文组织结构第12-13页
第2章 相关技术第13-27页
    2.1 Web信息采集技术第13-14页
    2.2 页面分析技术第14-16页
        2.2.1 DOM第14-15页
        2.2.2 jQuery框架第15页
        2.2.3 Jsoup解析器第15-16页
    2.3 网络爬虫第16-17页
        2.3.1 通用爬虫第16页
        2.3.2 链接去重第16-17页
    2.4 主题爬虫第17-20页
        2.4.1 主题页面分布特性第18页
        2.4.2 主题爬行策略第18-20页
        2.4.3 主题相关性判定算法第20页
    2.5 WebCollector第20-21页
    2.6 J2EE框架第21-26页
        2.6.1 Servlet技术第22-23页
        2.6.2 MVC模式概述第23-24页
        2.6.3 Structs2框架第24-26页
    2.7 本章小结第26-27页
第3章 需求分析第27-33页
    3.1 需求背景第27页
    3.2 数据来源分析第27-28页
    3.3 数据特征分析第28-29页
    3.4 功能需求分析第29-31页
    3.5 本章小结第31-33页
第4章 系统总体设计第33-41页
    4.1 系统结构第33-34页
    4.2 初始化模块第34-35页
    4.3 主题爬取模块第35-36页
    4.4 通用爬取模块第36-37页
    4.5 增量触发模块第37-38页
    4.6 页面解析模块第38页
    4.7 数据存储第38-40页
    4.8 本章小结第40-41页
第5章 系统实现第41-57页
    5.1 系统开发环境第41页
    5.2 系统类结构第41-43页
    5.3 关键算法设计与实现第43-46页
        5.3.1 权威站点队列和关键词生成算法第43-45页
        5.3.2 基于VSM算法的主题相关性判定算法第45-46页
    5.4 系统功能实现第46-56页
        5.4.1 全局配置第46-48页
        5.4.2 主题爬取第48-52页
        5.4.3 动态信息爬取第52-55页
        5.4.4 增量信息爬取第55-56页
    5.5 本章小结第56-57页
第6章 系统测试及实验分析第57-61页
    6.1 系统测试第57页
    6.2 算法测试第57-60页
        6.2.1 权威站点和关键词第57-58页
        6.2.2 准确率测试第58-60页
        6.2.3 系统性能测试第60页
    6.4 本章小结第60-61页
结论第61-63页
参考文献第63-67页
致谢第67页

论文共67页,点击 下载论文
上一篇:京津冀城市物流绩效评价与治理路径选择研究
下一篇:多功能助残轮椅机械手结构设计与运动控制的研究