首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

动态自适应的资源采集系统的设计与实现

摘要第5-6页
Abstract第6页
第一章 绪论第13-22页
    1.1 研究背景和意义第13-17页
        1.1.1 网络情况对资源采集的影响第14-15页
        1.1.2 链接资源的发现与分布第15-17页
    1.2 国内外研究现状第17-20页
        1.2.1 大规模网页资源采集的影响因素第18-19页
        1.2.2 搜索引擎对动态链接的收录第19-20页
    1.3 主要研究工作和内容第20-21页
    1.4 论文组织结构第21-22页
第二章 相关理论知识第22-32页
    2.1 搜索引擎的基本原理第22-23页
        2.1.1 搜索引擎简介第22-23页
        2.1.2 搜索引擎的工作原理第23页
    2.2 信息采集的基本原理第23-28页
        2.2.1 URL 库第24页
        2.2.2 遵守 Robots 协议第24页
        2.2.3 搜索策略第24-26页
        2.2.4 网页下载第26-27页
        2.2.5 网页解析第27页
        2.2.6 URL 消重第27-28页
        2.2.7 URL 调度第28页
    2.3 网页 URL 的编码第28-29页
    2.4 网页的编码技术第29-30页
    2.5 网页解析第30-31页
    2.6 本章小结第31-32页
第三章 动态自适应的资源采集系统的总体设计第32-46页
    3.1 系统的设计目标第32-33页
    3.2 系统的体系结构第33-34页
    3.3 系统的模块组成第34-36页
    3.4 系统的工作流程第36-39页
    3.5 动态自适应采集策略第39-45页
        3.5.1 基于启发式的实时过滤第39-41页
        3.5.2 基于 URL 特征的网页资源预测发现第41-42页
        3.5.3 相关算法描述第42-45页
    3.6 本章小结第45-46页
第四章 系统的设计与实现第46-65页
    4.1 实时过滤的网页下载模块第46-54页
        4.1.1 网页下载第46-48页
        4.1.2 网页采集情况实时统计模块第48-52页
        4.1.3 实时过滤模块第52-54页
    4.2 网页解析之 URL 抽取第54-57页
        4.2.1 URL 抽取结果的聚类第55-56页
        4.2.2 URL 抽取结果的分类第56-57页
    4.3 URL 过滤模块第57页
    4.4 URL 消重模块第57-58页
    4.5 URL 分析预测模块第58-63页
        4.5.1 挖掘已采集信息的 URL 参数特征第58-60页
        4.5.2 URL 预测的方法及实现机制第60-63页
    4.6 URL 调度模块第63-64页
    4.7 本章小结第64-65页
第五章 系统测试及分析第65-79页
    5.1 系统测试环境第65页
    5.2 系统的运行第65-66页
    5.3 实时过滤的采集测试第66-72页
        5.3.1 评估方法第67-68页
        5.3.2 测试数据第68-71页
        5.3.3 结果分析第71-72页
    5.4 URL 预测方法的效果测试第72-78页
        5.4.1 评估方法第72页
        5.4.2 测试数据第72-78页
        5.4.3 结果分析第78页
    5.5 系统的整体分析第78页
    5.6 本章小结第78-79页
总结与展望第79-80页
参考文献第80-83页
攻读硕士学位期间取得的研究成果第83-84页
致谢第84-85页
附件第85页

论文共85页,点击 下载论文
上一篇:辽河石油职院教师工作量管理系统设计与实现
下一篇:基于自动混合建模的椎骨MRI图像分割算法研究