搜索引擎中主题爬虫的研究与实现

摘要	第1-4页
Abstract	第4-5页
目录	第5-7页
1.绪论	第7-11页
·课题背景	第7-8页
·相关研究内容	第8-10页
·搜索引擎	第8-9页
·搜索引擎发展的国内外概况	第9-10页
·本文研究内容及结构	第10-11页
2.网络爬虫简介	第11-19页
·网络爬虫在搜索引擎中的地位	第11-13页
·网络爬虫的结构及基本原理	第13-15页
·网络爬虫的分类及比较	第15-16页
·主题页面在Web上的分布特征	第16-17页
·主题爬虫的设计目标	第17-18页
·本章小结	第18-19页
3 网络爬虫的关键算法	第19-33页
·主题爬虫的搜索策略	第19-23页
·基于内容评价的搜索策略	第19-23页
·基于链接结构评价的搜索策略	第23页
·Web结构链接挖掘算法	第23-29页
·PageRank算法	第24-26页
·Authorities and hubs算法	第26-28页
·两种算法的比较	第28-29页
·主题相关性算法	第29-32页
·向量空间模型(VSM)	第29-31页
·页面主题相关性算法	第31-32页
·本章小结	第32-33页
4 主题爬虫的分析与设计	第33-47页
·爬虫性能评价指标	第33页
·SoftSpider系统的设计目标	第33-37页
·设计关键点	第37-40页
·队列管理及数据结构	第37-38页
·多线程	第38-39页
·机器人停止协议	第39-40页
·搜索策略的选择	第40-43页
·页面的解析	第43-45页
·HTML语法的分析	第43页
·网页中信息资源的提取	第43-45页
·网络陷阱的预防	第45页
·本章小结	第45-47页
5 SoftSpider的实现	第47-52页
·系统实现	第47-49页
·实验及结果评价	第49-51页
·本章小结	第51-52页
6 总结与展望	第52-53页
·本文总结	第52页
·研究展望	第52-53页
致谢	第53-54页
参考文献	第54-56页