聚焦爬虫技术研究

摘要	第1-4页
ABSTRACT	第4-8页
第一章绪论	第8-12页
·课题研究的背景	第8-9页
·研究现状	第9-11页
·本文的主要研究内容	第11页
·本文的组织结构安排	第11-12页
第二章搜索引擎技术概述	第12-22页
·搜索引擎基本要求	第12页
·搜索引擎的分类	第12-13页
·搜索引擎的体系结构	第13-17页
·网络爬虫	第14-16页
·索引	第16页
·信息检索	第16页
·用户接口	第16-17页
·聚焦爬虫概述	第17-21页
·主题式垂直搜索引擎概述	第17页
·聚焦爬虫的特点	第17-18页
·聚焦爬虫的工作流程	第18-19页
·聚焦爬虫系统体系结构	第19-21页
·本章小结	第21-22页
第三章聚焦爬虫技术的研究	第22-32页
·主题描述	第22页
·主题WEB 页面分布特征	第22-24页
·中心页面特性	第23页
·主题关联特性	第23-24页
·主题聚集特性	第24页
·隧道特性	第24页
·网页分析算法	第24-31页
·基于链接结构的网页分析算法	第25-27页
·基于内容的网页分析算法	第27-28页
·聚焦爬虫的网页爬行策略	第28-31页
·本章小结	第31-32页
第四章基于综合爬行策略聚焦爬虫系统的设计与实现.	第32-51页
·基于综合爬行策略的聚焦爬虫系统的体系结构	第32-33页
·初始种子网页的选取	第33页
·CRAWLER 剖析	第33-39页
·HTTP/HTTPS 下载模块	第34-35页
·DNS 解析器	第35页
·下载模块控制器	第35-36页
·Crawler 任务管理器	第36-37页
·机器人拒绝协议	第37-39页
·URL 的提取	第39页
·WEB 内容分析	第39页
·WEB 数据库	第39-40页
·基于超链接结构和内容的综合爬行策略	第40-46页
·超链接结构价值的计算	第40-41页
·主题特征词库构建	第41-42页
·主题特征向量的计算	第42-43页
·内容的主题相关度	第43-44页
·基于网页综合价值的爬行算法	第44-46页
·超文本分类系统	第46页
·实验结果与分析	第46-50页
·性能评价方法	第47页
·多种主题上的实验结果	第47-48页
·初始样本数量的影响	第48-49页
·综合价值中因子K 的影响	第49-50页
·本章小结	第50-51页
第五章结论与展望	第51-53页
·结论	第51页
·展望	第51-53页
致谢	第53-54页
参考文献	第54-58页
附录：作者在攻读硕士学位期间发表的论文	第58页