首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

面向领域的Deep Web的增量爬取

摘要第1-10页
ABSTRACT第10-12页
第一章 绪论第12-16页
   ·研究背景及意义第12-13页
   ·研究内容第13-14页
   ·主要工作第14页
   ·本文组织结构第14-16页
第二章 理解搜索表单和Deep Web爬虫的相关研究第16-26页
   ·引言第16页
   ·理解搜索表单第16-21页
     ·模型化第17-18页
     ·解析搜索表单第18页
     ·片段处理第18-21页
   ·Deep Web网页增量爬取第21-25页
     ·Web Fountain Crawler第22页
     ·Univ.Chile Crawler第22-23页
     ·天网增量搜集系统第23-24页
     ·斯坦福大学领导研究HIWE第24页
     ·华盛顿大学开发的ShopBot第24-25页
     ·哥伦比亚大学研究团队研究的“集成的数据库”第25页
   ·小结第25-26页
第三章 一种基于机器学习方式组合的理解搜索表单的方法第26-40页
   ·引言第26-27页
   ·模型化第27-28页
     ·表单元素、属性定义第27页
     ·属性的逻辑关系第27-28页
   ·抽取表单元素和候选描述性标签的特征第28-30页
   ·LEX表达式第30-32页
   ·构建训练集,建立测试集第32页
   ·从候选匹配标签中进行筛选第32-37页
     ·第一步的分析第35页
     ·第二步的分析第35-37页
   ·处理缺失标签、纠正混淆匹配第37-38页
   ·性能评估第38-39页
   ·小结第39-40页
第四章 基于URL分类的Deep Web增量爬取第40-52页
   ·引言第40-41页
   ·基于URL分类的Deep Web增量爬虫第41-49页
     ·Deep Web增量爬虫模块第42-44页
     ·Deep Web表单的抽取第44-45页
     ·列表页面变化频率的计算第45-46页
     ·URL抽取器第46页
     ·叶子页面变化频率计算器第46-48页
     ·Leaf URL缓冲第48-49页
   ·性能评估第49-51页
   ·小结第51-52页
第五章 总结与展望第52-54页
   ·总结第52-53页
   ·展望第53-54页
参考文献第54-58页
致谢第58-59页
攻读学位期间发表的学术论文目录第59-60页
攻读学位期间参与科研项目情况第60-61页
学位论文评阅及答辩情况表第61页

论文共61页,点击 下载论文
上一篇:校园网两校区访问中VPN技术的应用
下一篇:基于输入输出有限时间稳定的奇异系统静态输出反馈控制