策略可扩展的搜索引擎研究和实现

中文摘要	第1-4页
Abstract	第4-6页
目录	第6-10页
第1章引言	第10-20页
·研究背景	第10-11页
·文献综述与研究现状	第11-17页
·搜索策略	第11-13页
·网页排序	第13-14页
·系统构造	第14-15页
·搜索过程中对Web 信息的利用	第15-16页
·解决Web 发展中出现的新问题	第16-17页
·Web 网页的分类	第17页
·论文动机和贡献	第17-18页
·论文组织	第18-20页
第2章搜索引擎结构	第20-24页
·搜索引擎的分类	第20-21页
·基于查询串的搜索引擎	第20页
·目录搜索引擎	第20-21页
·元搜索引擎	第21页
·典型搜索引擎的结构	第21-23页
·Alta Vista 搜索引擎	第21页
·Harvest 搜索引擎	第21-22页
·Google 搜索引擎	第22-23页
·总结:搜索引擎的一般结构	第23-24页
第3章网络爬行器(Crawler)	第24-33页
·概述	第24页
·Web 网的构成和爬行器(Cralwer)的选择	第24-26页
·聚焦搜索	第26-29页
·系统架构	第27-28页
·关键技术	第28-29页
·隐藏Web 网搜索	第29-32页
·基本架构	第30-31页
·关键技术	第31-32页
·小结	第32-33页
第4章 Webob-Crawler 架构设计	第33-58页
·Mercator 网络爬行器	第33-36页
·总体架构	第34-35页
·模块介绍	第35-36页
·Webob-Crawler 的设计目标和设计思想	第36-38页
·Webob-Crawler 总体结构	第38-40页
·Webob-Crawler 各模块及接口的设计	第40-50页
·任务和任务库(Task Repository)	第40-44页
·协议模块(Protocol)	第44-47页
·处理模块(Process)	第47-48页
·策略模块(Strategy)	第48-49页
·处理模块和策略模块之间的接口	第49-50页
·Webob-Crawler 中有关算法的设计	第50-54页
·URL 散列算法	第50-53页
·线程调度算法	第53页
·任务预取和缓存的双窗口算法	第53-54页
·实验结果	第54-56页
·聚焦搜索实验	第54-55页
·稳定性和伸缩性实验	第55-56页
·小结与进一步的工作	第56-58页
第5章文本分类器Webob-Classifier 的设计	第58-71页
·引言	第58-59页
·文本处理(Text Processing)和特征抽取	第59-62页
·分词	第60-61页
·词的处理	第61页
·索引	第61-62页
·分类算法	第62-63页
·文本分类系统构造	第63-69页
·总体结构及处理流程	第64-65页
·文本分析模块(Analyzer)	第65-67页
·索引模块	第67页
·分类器模块	第67-69页
·实验及结果评价	第69-70页
·结论与未来工作	第70-71页
第6章全文检索系统Webob-Index 设计	第71-81页
·Lucene 系统架构	第71-73页
·Lucene 索引文件格式	第73-77页
·基本概念	第75-76页
·索引的总体结构	第76页
·索引的组成	第76-77页
·Webob 中的全文检索系统	第77-80页
·基于Lucene 的架构设计	第77-78页
·索引文件格式的改进	第78-80页
·对中文处理的支持	第80页
·小结	第80-81页
第7章搜索引擎系统的集成	第81-83页
·系统集成	第81-82页
·系统运行结果	第82-83页
第8章结论	第83-85页
·论文主要工作总结	第83-84页
·进一步工作展望	第84-85页
参考文献	第85-89页
致谢	第89页
声明	第89-90页
本人简历	第90页
在学期间的研究成果及发表的学术论文	第90页