首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

网页增量式采集技术研究

摘要第1-5页
Abstract第5-9页
第1章 绪论第9-19页
   ·课题背景及意义第9-11页
   ·网页采集系统的基本原理第11-13页
     ·采集网页集合的工作原理第11页
     ·单个网页的采集原理第11-13页
   ·网页采集系统的结构第13-15页
   ·网页增量采集的概念和特点第15页
     ·网页增量采集的定义第15页
     ·网页增量采集的优点第15页
   ·网页增量采集研究现状第15-17页
     ·网页的增量采集方式第15-16页
     ·网页的增量采集策略第16-17页
   ·本文的主要研究内容第17-19页
第2章 增量采集网页树第19-28页
   ·目录型网页识别第19-23页
     ·目录型网页的定义第19页
     ·目录型网页识别的必要性第19-21页
     ·基于分类的目录型网页识别第21-22页
     ·目录型网页识别的应用第22-23页
   ·目录型网页更新时间预测第23-27页
     ·网页摘要获取第23-24页
     ·基于泊松模型的方法第24-25页
     ·基于改进泊松模型的方法第25-26页
     ·目录型网页更新预测的应用第26-27页
   ·本章小结第27-28页
第3章 主题团网页采集第28-36页
   ·主题团的定义第28页
   ·主题团的链接关系特征第28-29页
   ·识别出主题团的必要性第29-31页
   ·主题型网页的正文提取第31-33页
   ·HITS算法第33-34页
   ·基于HITS算法的主题团链接提取第34页
   ·基于最大熵分类器的主题团识别第34-35页
     ·链接信息的特征选取第34-35页
     ·实验设计及实验结果第35页
   ·本章小结第35-36页
第4章 基于URL特征的网页树剪枝第36-44页
   ·最近访问URL缓存第36-38页
     ·LRU算法第36-37页
     ·改进LRU算法第37-38页
     ·改进LRU算法在URL缓存上的应用第38页
   ·URL中日期的识别第38-43页
     ·URL中包含日期的统计第38-39页
     ·URL日期识别的重要性第39-40页
     ·URL中日期的模板第40-42页
     ·URL中日期识别实验及结果分析第42页
     ·基于URL日期识别的增量采集第42-43页
   ·本章小结第43-44页
第5章 系统的实现与分析第44-55页
   ·网页增量采集系统的设计要求第44-45页
   ·系统总体设计第45-46页
   ·系统模块设计第46-50页
   ·系统增量采集新网页的流程第50-53页
     ·不含日期的URL对应网页的增量采集第50页
     ·含日期的URL对应网页的增量采集第50-53页
   ·系统增量采集实验第53-54页
     ·增量采集评测方法第53页
     ·实验结果及分析第53-54页
   ·本章小结第54-55页
结论第55-56页
参考文献第56-61页
致谢第61页

论文共61页,点击 下载论文
上一篇:C50自密实混凝土的配制及粗骨料对其弹性模量的影响研究
下一篇:CFG桩身材料的制备及其抗硫酸盐侵蚀性能研究