基于Web Community识别的聚焦爬虫算法研究与设计

摘要	第1-4页
Abstract	第4-9页
第1章绪论	第9-17页
·课题背景	第9-10页
·搜索引擎技术的发展	第10-11页
·垂直搜索引擎技术	第11-15页
·通用搜索引擎技术的不足	第11-13页
·垂直搜索引擎工作原理	第13-15页
·本文的研究内容	第15-17页
·问题的提出	第15-16页
·解决方案的设定	第16-17页
第2章理论基础和相关技术	第17-33页
·网络结构概论	第17页
·Web Community	第17-22页
·基于链接分析的Web Community的识别算法	第18-21页
·Web Community的Scale-free特性	第21-22页
·文本分类技术	第22-24页
·向量空间模型	第22-23页
·分类器	第23-24页
·聚焦爬虫	第24-31页
·搜索引擎中的网络爬虫	第24-26页
·聚焦爬虫的基本原理	第26-27页
·聚焦爬虫的关键技术	第27-28页
·典型的聚焦爬虫算法	第28-30页
·聚焦爬虫的评价方法	第30-31页
·其他相关技术	第31-32页
·ODP	第31页
·Nutch	第31-32页
·HttpUnit	第32页
·LIBSVM	第32页
·本章小结	第32-33页
第3章 Improved-HITS-Expansion-Iteration Model算法	第33-41页
·基于HITS的迭代算法	第33-35页
·获得种子网页集合	第33-34页
·从种子网页集合扩展到基本网页集合	第34页
·在基本网页集合中计算Hub和Authority值	第34-35页
·基于HITS算法的不足	第35页
·基于改进HITS的迭代算法	第35-37页
·添加链接权重	第35-36页
·改进的HITS的迭代算法	第36-37页
·IHEIM原型算法和Adaptive IHEIM算法的提出	第37-39页
·定义Improved-HITS-Expansion-Iteration Model	第37-38页
·IHEIM原型算法和Adaptive IHEIM算法	第38-39页
·聚焦指数的分析	第39-40页
·获得初始反向链接	第40页
·本章小结	第40-41页
第4章基于Adaptive IHEIM算法的聚焦爬虫系统	第41-46页
·系统总体设计	第41-42页
·主题集合生成模块	第42页
·基本网页集合生成模块	第42-43页
·分类器模块	第43页
·网络图计算模块	第43-44页
·抓取解析模块	第44-45页
·本章小结	第45-46页
第5章实验的建立及结果	第46-57页
·实验的配置建立	第46-49页
·实验机器配置	第46页
·实验准备阶段参数配置	第46页
·实验比较算法	第46-47页
·实验算法的参数配置	第47页
·实验算法的比较	第47-48页
·针对Adaptive IHEIM算法的聚焦指数的比较	第48页
·针对Adaptive IHEIM算法的所抓取页面的比较	第48-49页
·实验结果	第49-56页
·算法的实验比较	第49-50页
·Adaptive IHEIM算法的聚焦指数比较	第50-55页
·Adaptive IHEIM算法的所抓取页面的比较	第55-56页
·本章小结	第56-57页
第6章总结与展望	第57-59页
参考文献	第59-62页
致谢	第62-63页
作者简历	第63页