首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于主题的增量网页并行爬取问题研究

摘要第10-12页
ABSTRACT第12-13页
第1章 绪论第14-20页
    1.1 研究背景及意义第14-15页
    1.2 研究内容第15-17页
    1.3 论文贡献第17-18页
    1.4 论文组织结构第18-20页
第2章 基于主题的增量网页并行爬取问题的相关研究第20-27页
    2.1 引言第20页
    2.2 爬虫种类第20-21页
    2.3 增量爬取第21-24页
        2.3.1 Surface Web增量爬取第22-23页
        2.3.2 Deep Web增量爬取第23-24页
    2.4 并行爬取第24-25页
    2.5 小结第25-27页
第3章 基于增量采新率模型的Deep Web增量获取方法第27-37页
    3.1 引言第27-28页
    3.2 Web数据库版本第28页
    3.3 集合覆盖模型第28-29页
    3.4 基于IHM的Deep Web增量获取方法第29-33页
        3.4.1 IHM概况第30-31页
        3.4.2 IHM的构建第31-32页
        3.4.3 特征的选择第32-33页
        3.4.4 IHM的学习第33页
    3.5 实验第33-36页
        3.5.1 评价标准第33页
        3.5.2 数据集第33-34页
        3.5.3 实验结果及其分析第34-36页
    3.6 小结第36-37页
第4章 基于更新频率判断模型的Surface Web增量获取方法第37-44页
    4.1 引言第37-38页
    4.2 基于CFG的更新频率判断模型第38-40页
        4.2.1 相关定义第38页
        4.2.2 基于CFG的更新频率判断模型第38页
        4.2.3 基于CFG的更新频率判断算法第38-40页
            4.2.3.1 变化模式预测第39-40页
            4.2.3.2 中心页面选择第40页
    4.3 基于更新频率判断模型的增量爬取过程第40-41页
    4.4 实验第41-43页
        4.4.1 评价标准第41-42页
        4.4.2 数据集第42页
        4.4.3 实验结果及其分析第42-43页
    4.5 小结第43-44页
第5章 基于主题的增量网页并行爬取方法第44-57页
    5.1 引言第44-45页
    5.2 基于主题的增量网页并行爬取系统架构第45-46页
    5.3 URL调度分配模型第46-51页
        5.3.1 Crawler评估因素的选择及量化第47-49页
        5.3.2 各评估因素权重的计算第49-51页
            5.3.2.1 建立层次结构图第49-50页
            5.3.2.2 建立各级判定矩阵第50页
            5.3.2.3 综合重要度的计算第50-51页
        5.3.3 对Crawler进行排序第51页
    5.4 URL分配算法第51-52页
    5.5 二级控制器第52-53页
    5.6 URL排序模型第53页
    5.7 实验第53-56页
        5.7.1 评价标准第53-54页
        5.7.2 数据集第54页
        5.7.3 实验结果及其分析第54-56页
    5.8 小结第56-57页
第6章 总结与展望第57-60页
    6.1 总结第57-58页
    6.2 展望第58-60页
参考文献第60-65页
致谢第65-66页
攻读学位期间发表的学术论文目录第66-67页
攻读学位期间参与科研项目情况第67-68页
学位论文评阅及答辩情况表第68页

论文共68页,点击 下载论文
上一篇:资本充足率对我国信贷和经济的影响研究
下一篇:天津机电职业技术学院设备管理系统的设计与实现