首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

复合规则驱动聚焦爬虫系统的设计与实现

摘要第4-5页
ABSTRACT第5页
第1章 绪论第8-12页
    1.1 课题背景及研究的目的和意义第8页
    1.2 本课题相关理论的发展概况第8-10页
        1.2.1 聚焦爬虫的发展第8-10页
        1.2.2 中文文本分类第10页
    1.3 本文的主要研究内容第10-12页
第2章 聚焦爬虫系统需求分析第12-20页
    2.1 系统概述第12-14页
    2.2 系统需求第14-19页
        2.2.1 网页内容获取模块第14-16页
        2.2.2 显示查询模块第16-19页
    2.3 需要解决的问题第19页
    2.4 本章小结第19-20页
第3章 聚焦爬虫系统设计第20-42页
    3.1 系统总体设计第20页
    3.2 显示查询模块设计第20-22页
    3.3 网页内容获取模块设计第22-34页
        3.3.1 网页采集子模块的设计第23-25页
        3.3.2 去重检测子模块的设计第25-27页
        3.3.3 复合规则聚焦策略的设计第27-31页
        3.3.4 数据存储模块的设计第31-33页
        3.3.5 URL调度子模块的设计第33-34页
    3.4 系统详细设计第34-36页
    3.5 系统数据库设计第36-41页
    3.6 本章小结第41-42页
第4章 聚焦爬虫系统实现第42-64页
    4.1 网页采集子模块的实现第42-47页
        4.1.1 代码加密页面的获取第42页
        4.1.2 网页正文内容的获取第42-45页
        4.1.3 网页采集子模块程序流程第45-47页
    4.2 去重检测子模块的实现第47-51页
        4.2.1 去重检测方法simhash实现第48-49页
        4.2.2 计算海明距离的剪枝算法第49-51页
    4.3 复合规则聚焦策略的实现第51-55页
        4.3.1 连接分析器的实现第51-53页
        4.3.2 内容分析器的实现第53-55页
    4.4 数据存储模块的实现第55-57页
    4.5 URL调度子模块的实现第57-59页
        4.5.1 对域名的调度第57页
        4.5.2 对URL的调度第57-59页
    4.6 系统的运行页面第59-63页
    4.7 本章小结第63-64页
第5章 聚焦爬虫系统测试第64-71页
    5.1 显示查询模块测试第64-68页
    5.2 网页内容获取模块测试第68-69页
    5.3 系统性能测试第69-70页
    5.4 本章小结第70-71页
结论第71-72页
参考文献第72-76页
致谢第76-77页
个人简历第77页

论文共77页,点击 下载论文
上一篇:机票实时数据处理系统的设计与实现
下一篇:手机腾讯网新闻智能推荐系统的设计与实现