首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于URL规则的聚焦爬虫及其应用

摘要第1-4页
Abstract第4-9页
第1章 绪论第9-19页
   ·问题的提出第9-10页
   ·研究现状第10-17页
     ·按照重要性对URL进行排序第10-11页
     ·主题相邻性第11-12页
     ·主题孤岛问题第12-13页
     ·隧道技术第13页
     ·CFC第13-14页
     ·决策树第14-15页
     ·类间链接规律第15-16页
     ·增强学习第16-17页
     ·分析总结第17页
   ·本文的主要工作和组织结构第17-18页
   ·本章小结第18-19页
第2章 垂直搜索引擎与Nutch概述第19-30页
   ·垂直搜索引擎第19-24页
     ·垂直搜索引擎架构第19页
     ·聚焦爬虫第19-20页
     ·WEB图生成器第20-21页
     ·链接分析第21页
     ·页面分类器第21-22页
     ·信息抽取器第22页
     ·索引构建器第22-23页
     ·搜索第23页
     ·网页评分第23页
     ·缓存第23-24页
   ·开源搜索引擎Nutch第24-29页
     ·Lucene第25-26页
     ·Hadoop第26-27页
     ·Nutch架构第27-29页
   ·本章小结第29-30页
第3章 基于URL规则的聚焦爬虫第30-35页
   ·用正则表达式概括同一网站内的主题相关页面第30页
   ·解决主题孤岛问题第30-31页
   ·URL正则表达式学习器第31页
   ·一个基于URL规则的聚焦爬虫第31-34页
     ·实验爬虫阶段第32-33页
     ·聚焦爬虫阶段第33-34页
   ·本章小结第34-35页
第4章 基于URL规则的聚焦爬虫的实现第35-49页
   ·URL正则表达式学习器的实现第35-41页
     ·URL数据结构第35-36页
     ·URL距离的度量第36-37页
     ·划分第37-38页
     ·聚合第38-39页
     ·抽取第39-41页
   ·实验爬虫阶段的实现第41-46页
     ·站点过滤器第41-42页
     ·URL数量过滤器第42-43页
     ·实验爬虫第43-46页
   ·聚焦爬虫阶段的实现第46-48页
     ·URL正则表达式过滤器第46-47页
     ·聚焦爬虫第47-48页
   ·本章小结第48-49页
第5章 基于URL规则的聚焦爬虫的应用与分析第49-67页
   ·在抓取指定网站场景下的应用第49-62页
     ·实验环境设置第50-53页
     ·实验及其分析第53-62页
   ·在抓取整个互联网上的主题相关页面场景下的应用第62-66页
     ·寻找主题相关站点第63-66页
   ·本章小结第66-67页
第6章 总结与展望第67-69页
   ·本文工作总结第67页
   ·未来工作展望第67-69页
参考文献第69-72页
致谢第72页

论文共72页,点击 下载论文
上一篇:基于动态摘要匹配的P2P流媒体共享技术
下一篇:基于视频图像的实时车辆检测系统应用研究