可扩展分布式垂直搜索引擎设计与实现研究

摘要	第1-12页
ABSTRACT	第12-13页
第一章引言	第13-21页
·课题研究背景	第13-15页
·Web搜索引擎研究综述	第15-20页
·搜索引擎研究现状	第15-18页
·垂直搜索引擎研究现状	第18-20页
·课题设计思路及论文安排	第20-21页
第二章垂直搜索引擎工作原理和相关技术	第21-34页
·垂直搜索引擎的体系结构	第21-22页
·信息搜集	第22-26页
·Crawler基本原理	第22-23页
·深度优先和广度优先	第23-24页
·不重复抓取策略	第24-25页
·网络爬虫Heritrix	第25-26页
·信息提取及索引	第26-29页
·页面解析原理	第26-28页
·倒排索引技术	第28-29页
·信息检索	第29-33页
·信息检索中的查询技术	第29-31页
·信息检索中的排序技术	第31-33页
·本章小结	第33-34页
第三章基于聚焦爬虫原理的垂直搜索引擎信息搜集方法	第34-53页
·聚焦爬虫基本概念	第34-36页
·聚焦爬虫的原理	第34页
·聚焦爬虫的结构	第34-36页
·基于树形超链结构的论坛聚焦爬虫方法	第36-41页
·主题页面的分布特征	第36-37页
·论坛树形网络结构	第37-39页
·基于树形超链结构的Heritrix爬虫实现	第39-40页
·利用爬虫程序抓取外国军事论坛	第40-41页
·Heritrix爬虫程序多任务扩展	第41页
·模板式网页信息提取	第41-45页
·HTMLParser页面提取技术	第42-43页
·页面解析	第43-44页
·信息提取	第44-45页
·基于模糊模式识别的信息分类方法	第45-51页
·模糊模式识别基本概念	第45-46页
·特征选择与样本类别统计	第46-49页
·最大隶属度原则下的因素权重估计	第49-50页
·基于S型隶属函数分类方法	第50-51页
·对贴子进行计算并分类	第51页
·本章小结	第51-53页
第四章垂直搜索引擎的信息索引及检索设计	第53-62页
·基于Lucene信息索引实现	第53-55页
·全文检索工具Lucene介绍	第53-54页
·运用Lucene建立论坛贴子文件索引	第54-55页
·Lucene索引的分布式应用及扩展性	第55页
·论坛信息的数据库存储	第55-57页
·基于用户查询的信息检索实现	第57-60页
·基于用户查询的索引缓存方法	第57-59页
·构建用户搜索	第59-60页
·本章小结	第60-62页
第五章分布式垂直搜索引擎系统设计	第62-79页
·分布式搜索引擎基本技术	第62-69页
·分布式基本原理	第62-66页
·大型通用搜索引擎的分布式系统框架	第66-69页
·基于分布式元搜索引擎的分布式垂直搜索引擎系统设计	第69-74页
·分布式垂直搜索引擎系统框架	第69-70页
·分布式爬虫方法	第70-72页
·数据同步备份和索引合并方法	第72-74页
·负载均衡方法	第74页
·分布式垂直搜索引擎用户接口单元方法	第74-76页
·CORBA运行机理	第74-76页
·基于CORBA方式的分布式用户检索方法	第76页
·分布式搜索引擎的扩展性分析	第76-77页
·本章小结	第77-79页
结束语	第79-80页
致谢	第80-81页
参考文献	第81-84页
作者在学期间取得的学术成果	第84-85页
附录A 扩展Extractor类的末网页判定	第85-87页
附录B 链接过滤的扩展schedule()方法	第87-88页
附录C Lucene建立索引Document()和IndexProcesser()方法	第88-90页
附录D 数据库添加数据方法	第90-92页
附录E OSCache缓存类	第92-93页