首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于HITS与Shark-Search的主题爬虫关键技术研究与实现

摘要第4-6页
abstract第6-7页
第一章 绪论第11-16页
    1.1 研究背景和意义第11-12页
    1.2 国内外研究现状第12-14页
    1.3 论文研究内容第14-15页
    1.4 论文结构安排第15-16页
第二章 爬虫相关理论和技术第16-25页
    2.1 搜索引擎简介第16-18页
        2.1.1 搜索引擎基本原理第16-17页
        2.1.2 搜索引擎的分类第17-18页
    2.2 通用爬虫第18-19页
    2.3 主题爬虫第19-22页
        2.3.1 主题爬虫原理第19-20页
        2.3.2 主题爬虫的结构第20-22页
    2.4 相关技术简介第22-24页
        2.4.1 URL去重技术第22-23页
        2.4.2 Webmagic第23页
        2.4.3 正则表达式第23页
        2.4.4 Elasticsearch第23-24页
    2.5 本章小结第24-25页
第三章 基于链接的主题爬虫算法HITS的改进第25-35页
    3.1 HITS算法及其局限性第25-28页
    3.2 IHITS算法第28-30页
    3.3 实验及分析第30-34页
        3.3.1 实验方案第30页
        3.3.2 实验数据集第30-31页
        3.3.3 算法评价指标第31-32页
        3.3.4 结果分析第32-34页
    3.4 本章小结第34-35页
第四章 基于内容的主题爬虫算法Shark-Search的改进第35-45页
    4.1 Shark-Search算法及其局限性第35-38页
    4.2 ISS算法第38-40页
    4.3 实验及结果分析第40-44页
        4.3.1 评价方法第40-42页
        4.3.2 结果分析第42-44页
    4.4 本章小结第44-45页
第五章 爬虫原型系统设计与实现第45-56页
    5.1 系统需求分析第45-46页
        5.1.1 系统总体目标第45页
        5.1.2 功能需求第45-46页
        5.1.3 系统性能需求第46页
    5.2 系统总体设计第46-48页
        5.2.1 系统功能架构第46-47页
        5.2.2 系统工作流程第47-48页
    5.3 系统数据库设计第48-49页
    5.4 反爬虫机制的应对策略第49-52页
    5.5 系统业务功能实现第52-54页
        5.5.1 模板编辑第52-53页
        5.5.2 创建定时任务第53页
        5.5.3 状态查看第53-54页
    5.6 系统爬行实验第54-55页
    5.7 本章小结第55-56页
第六章 总结与展望第56-58页
    6.1 本文工作总结第56-57页
    6.2 本文工作展望第57-58页
参考文献第58-62页
致谢第62页

论文共62页,点击 下载论文
上一篇:基于Hadoop平台的医疗康复推荐系统的研究与实现
下一篇:基于Docker SwarmKit的资源管控平台设计与实现