首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--软件工程论文

基于增量反馈和自适应机制的主题爬虫系统的设计与实现

摘要第1-4页
Abstract第4-5页
目录第5-7页
1 绪论第7-11页
 1.1 背景第7-8页
 1.2 主题爬虫的研究现状第8-9页
  1.2.1 C0RA第8页
  1.2.2 IBM Focused Crawler第8-9页
  1.2.3 Context Graphs Focused Crawler第9页
 1.3 研究的目的及意义第9-10页
 1.4 论文安排第10-11页
2 主题爬虫概述第11-20页
 2.1 通用爬虫模型第11-14页
  2.1.1 通用爬虫的结构第11-13页
  2.1.2 通用爬虫的不足第13-14页
 2.2 主题爬虫模型第14-17页
  2.2.1 主题爬虫的原理第14-15页
  2.2.2 主题爬虫的结构第15-16页
  2.2.3 与普通爬虫的区别第16-17页
 2.3 主题页面的分布特征第17-20页
  2.3.1 中心页面特性第18页
  2.3.2 主题关联特性第18页
  2.3.3 主题聚集特性第18页
  2.3.4 隧道特性第18-20页
3 主题爬虫的关键算法研究第20-34页
 3.1 Web超链分析的算法研究第20-24页
  3.1.1 PageRank算法第20-22页
  3.1.2 HITS算法第22-24页
  3.1.3 PageRank算法和 HITS算法的比较第24页
 3.2 URL主题相关性算法研究第24-31页
  3.2.1 基于文字内容的启发策略第25-29页
  3.2.2 基于 Web图的启发策略第29-30页
  3.2.3 其他启发策略第30-31页
 3.3 页面主题相关性算法研究第31-34页
  3.3.1 向量空间模型(VSM)第31页
  3.3.2 训练方法和分类算法第31-34页
4 HJSpider的设计第34-45页
 4.1 数据结构的设计第35-36页
 4.2 主题的选择第36-37页
 4.3 页面的分析第37-40页
  4.3.1 HTML语法分析第37-38页
  4.3.2 网页正文提取第38-40页
  4.3.3 链接的提取第40页
 4.4 主题相关性判定策略的选择第40-43页
  4.4.1 URL主题相关性判定第40-42页
  4.4.2 页面主题相关性判定第42-43页
 4.5 增量反馈及自适应机制第43-45页
5 HJSpider的实现第45-51页
 5.1 系统实现第45-49页
 5.2 系统测试第49-51页
6 总结与展望第51-52页
 6.1 本文的工作总结第51页
 6.2 下一步的工作第51-52页
致谢第52-53页
参考文献第53-56页

论文共56页,点击 下载论文
上一篇:抗战时期的江南水泥公司
下一篇:近代江南城居地主问题研究