基于聚焦爬虫的web信息采集技术研究

摘要	第1-5页
Abstract	第5-9页
1 绪论	第9-13页
·课题研究的背景	第9-11页
·WWW的发展	第9页
·搜索引擎的发展	第9-11页
·课题研究的意义	第11页
·本文的研究内容	第11页
·本文的组织安排	第11-13页
2 搜索引擎技术概述	第13-21页
·搜索引擎基本描述	第13页
·搜索引擎的基本原理和工作流程	第13-14页
·搜索引擎的体系结构	第14-17页
·网络爬虫	第15-16页
·网页索引	第16页
·检索查询	第16页
·人机接口	第16-17页
·搜索引擎的性能指标	第17-18页
·垂直搜索引擎基本描述	第18-19页
·垂直搜索引擎产生的背景	第18页
·垂直搜索引擎与通用搜索引擎的区别	第18-19页
·面向主题的信息采集	第19-21页
3 网络爬虫技术原理	第21-30页
·网络爬虫在搜索引擎中的地位	第21-22页
·通用爬虫工作流程	第22-23页
·通用爬虫的结构	第23页
·聚焦爬虫概述	第23-24页
·聚焦爬虫的工作流程	第24-26页
·聚焦爬虫的结构	第26-27页
·聚焦爬虫与通用爬虫爬行的区别	第27-28页
·聚焦爬虫的研究现状	第28-29页
·本文的研究重点	第29-30页
4 聚焦爬虫关键技术研究	第30-40页
·主题WEB页面分布特性	第30-32页
·中心页面特性	第30-31页
·主题关联特性	第31页
·站点主题聚集特性	第31页
·隧道特性	第31-32页
·页面的主题相关度评价	第32-34页
·聚焦爬虫爬行策略	第34-39页
·基于内容评价的搜索	第34-37页
·基于链结结构的搜索	第37-39页
·链接价值的评价	第39-40页
5 技术实现和实验结果	第40-52页
·系统体系结构	第40页
·网页信息解析	第40-44页
·超链接的抽取	第41-43页
·正文内容提取	第43-44页
·页面过滤	第44-45页
·主题特征词库构建	第44页
·页面特征向量计算	第44-45页
·页面主题相关度计算	第45页
·URL的主题相关性预测TPR算法	第45-48页
·URL相关度分值预测	第45-47页
·URL综合价值计算TPR(Topical PageRank)	第47-48页
·基于TPR的URL主题剪枝算法	第48页
·系统运行	第48-49页
·软硬件和网络环境	第48-49页
·系统运行截图	第49页
·实验结果与分析	第49-52页
·针对主题过滤的评测	第50页
·基于URL综合价值计算TPR的综合爬行策略评测	第50-52页
6 总结和展望	第52-54页
·本文工作的总结	第52-53页
·展望	第53-54页
参考文献	第54-58页
附录:硕士在读期间发表的论文	第58-59页
致谢	第59页