首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

垂直搜索引擎中智能爬虫系统的研究与实现

摘要第4-5页
ABSTRACT第5页
第一章 绪论第10-17页
    1.1 项目背景第10-11页
    1.2 研究现状第11-12页
    1.3 主要工作和研究内容第12-15页
    1.4 创新点和关键技术第15页
    1.5 论文结构第15-17页
第二章 相关技术介绍第17-30页
    2.1 主题相关度计算第17-23页
        2.1.1 TF-IDF第17-18页
        2.1.2 LDA第18-21页
        2.1.3 SVM分类器第21-23页
    2.2 分布式消息队列服务第23-24页
    2.3 Easy框架第24-25页
    2.4 JavaScript执行引擎第25-26页
    2.5 SSDB第26-29页
    2.6 本章小结第29-30页
第三章 智能爬虫的核心技术研究和设计第30-45页
    3.1 主题相关性算法的设计第30-32页
    3.2 应对反爬虫策略的设计第32-40页
        3.2.1 HTTP代理的智能筛选策略第33-35页
        3.2.2 爬虫针对站点的频率控制第35-37页
        3.2.3 网站分类并建立规则库第37-39页
        3.2.4 网站封禁状态的识别第39-40页
    3.3 海量URL去重方法的设计第40-44页
        3.3.1 基于哈希表的去重第40页
        3.3.2 基于Redis的URL去重第40页
        3.3.3 基于Bloom filter的去重第40-42页
        3.3.4 基于SSDB和Bloom filter的两层三实例解决方案第42-44页
    3.4 本章小结第44-45页
第四章 智能爬虫系统的实现第45-75页
    4.1 系统总体架构设计第45-46页
    4.2 高并发分布式通用下载器的实现第46-53页
        4.2.1 下载器的初始化第47-48页
        4.2.2 URL的获取第48-50页
        4.2.3 DNS的解析与缓存第50页
        4.2.4 连接的建立和数据准备第50-51页
        4.2.5 数据交换和输出第51-52页
        4.2.6 命令行输入和统计第52-53页
    4.3 其他订制下载器的实现第53-56页
        4.3.1 爬虫的配置和工具第53-54页
        4.3.2 需登录网站的处理第54页
        4.3.3 元搜索引擎第54-55页
        4.3.4 动态网页爬虫的实现第55-56页
    4.4 网页解析器的实现第56-68页
        4.4.1 框架流程第57页
        4.4.2 网页数据的获取和编码转换第57-58页
        4.4.3 模板引擎第58-59页
        4.4.4 页面核心内容和摘要的提取第59-61页
        4.4.5 页面链接获取第61页
        4.4.6 页面主题相关度计算第61-63页
        4.4.7 网页倾向性分析第63-68页
    4.5 调度器的实现第68-74页
        4.5.1 URL的统计和代理的添加第70-71页
        4.5.2 导航页的检查与更新第71-72页
        4.5.3 URL的去重第72-74页
        4.5.4 URL的调度第74页
        4.5.5 网页内容的输出第74页
    4.6 本章小结第74-75页
第五章 系统搭建及测试第75-86页
    5.1 系统环境与部署说明第75-78页
    5.2 智能爬虫的测试第78-85页
        5.2.1 测试脚本第78页
        5.2.2 智能爬虫基本测试第78-81页
        5.2.3 智能爬虫核心测试第81-85页
    5.3 本章小结第85-86页
第六章 结束语第86-88页
    6.1 论文总结第86页
    6.2 下一步研究工作第86-88页
参考文献第88-92页
致谢第92-93页
攻读学位期间发表的学术论文目录第93页

论文共93页,点击 下载论文
上一篇:安卓手机性能自动化测试智能系统的研究与实现
下一篇:应用性能管理中应用性能分类评估系统的研究与实现