基于增量反馈和自适应机制的主题爬虫系统的设计与实现

摘要	第1-4页
Abstract	第4-5页
目录	第5-7页
1 绪论	第7-11页
1．1 背景	第7-8页
1．2 主题爬虫的研究现状	第8-9页
1．2．1 C0RA	第8页
1．2．2 IBM Focused Crawler	第8-9页
1．2．3 Context Graphs Focused Crawler	第9页
1．3 研究的目的及意义	第9-10页
1．4 论文安排	第10-11页
2 主题爬虫概述	第11-20页
2．1 通用爬虫模型	第11-14页
2．1．1 通用爬虫的结构	第11-13页
2．1．2 通用爬虫的不足	第13-14页
2．2 主题爬虫模型	第14-17页
2．2．1 主题爬虫的原理	第14-15页
2．2．2 主题爬虫的结构	第15-16页
2．2．3 与普通爬虫的区别	第16-17页
2．3 主题页面的分布特征	第17-20页
2．3．1 中心页面特性	第18页
2．3．2 主题关联特性	第18页
2．3．3 主题聚集特性	第18页
2．3．4 隧道特性	第18-20页
3 主题爬虫的关键算法研究	第20-34页
3．1 Web超链分析的算法研究	第20-24页
3．1．1 PageRank算法	第20-22页
3．1．2 HITS算法	第22-24页
3．1．3 PageRank算法和 HITS算法的比较	第24页
3．2 URL主题相关性算法研究	第24-31页
3．2．1 基于文字内容的启发策略	第25-29页
3．2．2 基于 Web图的启发策略	第29-30页
3．2．3 其他启发策略	第30-31页
3．3 页面主题相关性算法研究	第31-34页
3．3．1 向量空间模型(VSM)	第31页
3．3．2 训练方法和分类算法	第31-34页
4 HJSpider的设计	第34-45页
4．1 数据结构的设计	第35-36页
4．2 主题的选择	第36-37页
4．3 页面的分析	第37-40页
4．3．1 HTML语法分析	第37-38页
4．3．2 网页正文提取	第38-40页
4．3．3 链接的提取	第40页
4．4 主题相关性判定策略的选择	第40-43页
4．4．1 URL主题相关性判定	第40-42页
4．4．2 页面主题相关性判定	第42-43页
4．5 增量反馈及自适应机制	第43-45页
5 HJSpider的实现	第45-51页
5．1 系统实现	第45-49页
5．2 系统测试	第49-51页
6 总结与展望	第51-52页
6．1 本文的工作总结	第51页
6．2 下一步的工作	第51-52页
致谢	第52-53页
参考文献	第53-56页