首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

高效的Web信息采集策略的研究

摘要第1-5页
Abstract第5-9页
第1章 绪论第9-17页
   ·课题背景和研究意义第9-10页
   ·信息采集的研究现状第10-16页
     ·基于整个Web的信息采集第10-11页
     ·增量式Web信息采集第11-12页
     ·基于主题的Web信息采集第12-13页
     ·基于元搜索的信息采集第13-14页
     ·基于用户个性化的Web信息采集第14-15页
     ·基于Agent的信息采集第15-16页
     ·迁移的信息采集第16页
   ·研究内容第16页
   ·论文的组织第16-17页
第2章 Web信息采集系统第17-27页
   ·信息采集系统概述第17-19页
     ·搜索引擎介绍第17-18页
     ·信息采集系统的工作流程第18-19页
   ·相关研究第19-26页
     ·种子URL的选择第19-20页
     ·采集的策略第20-21页
     ·URL的重复性判定第21-22页
     ·采集器的通信模型第22页
     ·DNS缓存第22-23页
     ·页面中链接提取第23-24页
     ·爬行陷阱第24页
     ·其他相关问题第24-26页
   ·本章小结第26-27页
第3章 高效Web信息采集的关键技术第27-41页
   ·分布式信息采集相关研究第27-34页
     ·采集节点的合作方式第27-28页
     ·分布式拓扑结构和相应的通信策略第28-31页
     ·URL空间的划分方案第31-32页
     ·系统的动态可配置性第32-34页
   ·增量信息采集相关研究第34-37页
     ·更新策略第34-35页
     ·基于高灵敏网页特性和更新局部性的更新算法第35-36页
     ·网页指纹判定第36-37页
   ·面向主题的信息采集相关研究第37-40页
     ·主题的描述第38页
     ·网页内容与主题的相关性判定第38-39页
     ·URL与主题的相关性预测第39-40页
   ·本章小结第40-41页
第4章 系统InsunSpider的设计与实现第41-57页
   ·设计目标第41页
   ·系统总体架构第41-42页
   ·分布式采集的实现第42-48页
     ·节点间通信第42-45页
     ·主控模块第45-46页
     ·采集节点第46-48页
   ·增量式采集的实现第48-50页
   ·主题过滤模块的实现第50-51页
   ·系统评测第51-56页
     ·针对分布式采集的评测第51-54页
     ·针对增量式采集的评测第54-55页
     ·针对主题过滤模块的评测第55-56页
   ·本章小结第56-57页
结论第57-58页
参考文献第58-63页
致谢第63页

论文共63页,点击 下载论文
上一篇:钢—混凝土组合框架(组合梁—钢柱)稳定分析及设计方法研究
下一篇:本布图油田保护油层钻井液技术研究