设计和实现一个主题搜索引擎

摘要	第1-3页
ABSTRACT	第3-7页
引言	第7-9页
一主题搜索引擎综述	第9-23页
·主题搜索引擎的概念	第9-11页
·用户主题的描述和网页分类器的设计	第11-14页
·用户主题的描述方式	第12-13页
·网页分类器的设计	第13-14页
·主题搜索引擎启发函数的设计	第14-18页
·主题搜索引擎中的穿越隧道问题	第18-23页
·样例驱动的主题爬行器	第18-19页
·上下文图主题爬行器	第19-21页
·Cora爬行器	第21-23页
二本文主题搜索引擎的体系结构	第23-33页
·面向对象设计	第23-25页
·设计模式	第25-30页
·Wrapper Facade模式	第25-27页
·Scoped Locking模式	第27-28页
·Command模式	第28-30页
·FRONTIER和消息队列的设计	第30-33页
三高性能爬行器(Crawler)的实现	第33-46页
·相关工作	第33-34页
·性能瓶颈分析	第34-38页
·网络通信延迟	第36页
·礼貌(politeness)爬行问题	第36-37页
·域名解析	第37-38页
·机器人拒绝协议(Robot Exclusion Protocol)	第38页
·Frontier-内存与磁盘驻留的数据结构	第38-39页
·实现细节	第39-46页
·HTTP协议的介绍	第39-41页
·HTTP协议的封装	第41-42页
·爬行控制器的结构图	第42-43页
·爬行控制器的顶层类图	第43-45页
·实验结果	第45-46页
四爬行策略控制器的实现	第46-57页
·爬行策略控制器的工作流程	第46-47页
·HTML解析器的实现	第47-51页
·Na(?)ve Bayes网页分类器的实现	第51-52页
·实现细节	第52-57页
·文本处理	第52页
·超链接的抽取	第52-53页
·URL评价器的设计	第53页
·数据的存储	第53-55页
·爬行策略控制器的结构图	第55页
·爬行策略控制器的顶层类图	第55-57页
五总结	第57-59页
参考书目	第59-61页
致谢	第61页