首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于Web Community识别的聚焦爬虫算法研究与设计

摘要第1-4页
Abstract第4-9页
第1章 绪论第9-17页
   ·课题背景第9-10页
   ·搜索引擎技术的发展第10-11页
   ·垂直搜索引擎技术第11-15页
     ·通用搜索引擎技术的不足第11-13页
     ·垂直搜索引擎工作原理第13-15页
   ·本文的研究内容第15-17页
     ·问题的提出第15-16页
     ·解决方案的设定第16-17页
第2章 理论基础和相关技术第17-33页
   ·网络结构概论第17页
   ·Web Community第17-22页
     ·基于链接分析的Web Community的识别算法第18-21页
     ·Web Community的Scale-free特性第21-22页
   ·文本分类技术第22-24页
     ·向量空间模型第22-23页
     ·分类器第23-24页
   ·聚焦爬虫第24-31页
     ·搜索引擎中的网络爬虫第24-26页
     ·聚焦爬虫的基本原理第26-27页
     ·聚焦爬虫的关键技术第27-28页
     ·典型的聚焦爬虫算法第28-30页
     ·聚焦爬虫的评价方法第30-31页
   ·其他相关技术第31-32页
     ·ODP第31页
     ·Nutch第31-32页
     ·HttpUnit第32页
     ·LIBSVM第32页
   ·本章小结第32-33页
第3章 Improved-HITS-Expansion-Iteration Model算法第33-41页
   ·基于HITS的迭代算法第33-35页
     ·获得种子网页集合第33-34页
     ·从种子网页集合扩展到基本网页集合第34页
     ·在基本网页集合中计算Hub和Authority值第34-35页
     ·基于HITS算法的不足第35页
   ·基于改进HITS的迭代算法第35-37页
     ·添加链接权重第35-36页
     ·改进的HITS的迭代算法第36-37页
   ·IHEIM原型算法和Adaptive IHEIM算法的提出第37-39页
     ·定义Improved-HITS-Expansion-Iteration Model第37-38页
     ·IHEIM原型算法和Adaptive IHEIM算法第38-39页
   ·聚焦指数的分析第39-40页
   ·获得初始反向链接第40页
   ·本章小结第40-41页
第4章 基于Adaptive IHEIM算法的聚焦爬虫系统第41-46页
   ·系统总体设计第41-42页
   ·主题集合生成模块第42页
   ·基本网页集合生成模块第42-43页
   ·分类器模块第43页
   ·网络图计算模块第43-44页
   ·抓取解析模块第44-45页
   ·本章小结第45-46页
第5章 实验的建立及结果第46-57页
   ·实验的配置建立第46-49页
     ·实验机器配置第46页
     ·实验准备阶段参数配置第46页
     ·实验比较算法第46-47页
     ·实验算法的参数配置第47页
     ·实验算法的比较第47-48页
     ·针对Adaptive IHEIM算法的聚焦指数的比较第48页
     ·针对Adaptive IHEIM算法的所抓取页面的比较第48-49页
   ·实验结果第49-56页
     ·算法的实验比较第49-50页
     ·Adaptive IHEIM算法的聚焦指数比较第50-55页
     ·Adaptive IHEIM算法的所抓取页面的比较第55-56页
   ·本章小结第56-57页
第6章 总结与展望第57-59页
参考文献第59-62页
致谢第62-63页
作者简历第63页

论文共63页,点击 下载论文
上一篇:虚拟化平台支持的目标码验证技术研究
下一篇:基于计算机视觉的手势交互系统研究与设计