基于领域概念定制的主题爬虫系统的设计与实现

摘要	第1-5页
ABSTRACT	第5-8页
第一章绪论	第8-14页
·研究的背景	第8-9页
·目前国内外的研究状况	第9-11页
·CORA	第9-10页
·IBM Focused Crawler	第10页
·Context Graphs Focused Crawler	第10-11页
·论文相关工作	第11-12页
·论文的安排	第12-14页
第二章相关理论与技术	第14-24页
·搜索引擎理论与技术	第14-20页
·搜索引擎的概念	第14页
·搜索引擎的发展简史	第14-17页
·搜索引擎的分类	第17页
·搜索引擎技术简介	第17-19页
·搜索引擎的系统结构	第19-20页
·HTTP 协议	第20-24页
·HTTP 协议概述	第20页
·HTTP 报文类型	第20-21页
·HTTP 报文首部字段	第21-22页
·HTTP 的响应代码	第22-24页
第三章面向主题资源的网络爬虫体系结构设计	第24-32页
·通用网络爬虫工作原理及体系结构	第24-26页
·通用网络爬虫的工作原理	第24-25页
·通用网络爬虫体系结构	第25-26页
·主题网络爬虫工作原理及体系结构	第26-32页
·主题爬虫的概述	第26-28页
·主题爬虫工作原理	第28-29页
·主题爬虫的体系结构	第29-30页
·主题相关度和重要度判定模块的设计	第30-32页
第四章主题相关性判定关键算法研究与设计	第32-44页
·引言	第32页
·基于网络拓扑的算法分析研究	第32-34页
·PageRank 算法	第32-33页
·HITS 算法	第33-34页
·算法使用分析	第34页
·基于网页内容的算法分析研究	第34-36页
·纯文本分类与聚类算法	第34-35页
·超文本分类和聚类算法	第35-36页
·算法使用分析	第36页
·基于领域概念定制的网页评价算法的设计	第36-44页
·主题对象确立模块算法设计	第37-38页
·初始种子优化模块算法设计	第38-39页
·主题相关度分析模块算法设计	第39-41页
·链接重要度分析模块算法设计	第41-44页
第五章主题网络爬虫系统的实现	第44-56页
·引言	第44页
·主题爬虫系统的实现	第44-50页
·主要的C++类和数据结构	第44-47页
·页面文本信息抽取算法实现	第47-48页
·页面相关度判定算法实现	第48-50页
·实验研究	第50-56页
·试验环境	第50页
·主题爬虫系统运行情况	第50-51页
·测试结果	第51-56页
第六章总结与展望	第56-58页
·论文工作的总结	第56-57页
·下一步工作的展望	第57-58页
致谢	第58-60页
参考文献	第60-64页
作者在读期间的研究成果	第64页