摘要 | 第1-12页 |
ABSTRACT | 第12-13页 |
第一章 引言 | 第13-21页 |
·课题研究背景 | 第13-15页 |
·Web搜索引擎研究综述 | 第15-20页 |
·搜索引擎研究现状 | 第15-18页 |
·垂直搜索引擎研究现状 | 第18-20页 |
·课题设计思路及论文安排 | 第20-21页 |
第二章 垂直搜索引擎工作原理和相关技术 | 第21-34页 |
·垂直搜索引擎的体系结构 | 第21-22页 |
·信息搜集 | 第22-26页 |
·Crawler基本原理 | 第22-23页 |
·深度优先和广度优先 | 第23-24页 |
·不重复抓取策略 | 第24-25页 |
·网络爬虫Heritrix | 第25-26页 |
·信息提取及索引 | 第26-29页 |
·页面解析原理 | 第26-28页 |
·倒排索引技术 | 第28-29页 |
·信息检索 | 第29-33页 |
·信息检索中的查询技术 | 第29-31页 |
·信息检索中的排序技术 | 第31-33页 |
·本章小结 | 第33-34页 |
第三章 基于聚焦爬虫原理的垂直搜索引擎信息搜集方法 | 第34-53页 |
·聚焦爬虫基本概念 | 第34-36页 |
·聚焦爬虫的原理 | 第34页 |
·聚焦爬虫的结构 | 第34-36页 |
·基于树形超链结构的论坛聚焦爬虫方法 | 第36-41页 |
·主题页面的分布特征 | 第36-37页 |
·论坛树形网络结构 | 第37-39页 |
·基于树形超链结构的Heritrix爬虫实现 | 第39-40页 |
·利用爬虫程序抓取外国军事论坛 | 第40-41页 |
·Heritrix爬虫程序多任务扩展 | 第41页 |
·模板式网页信息提取 | 第41-45页 |
·HTMLParser页面提取技术 | 第42-43页 |
·页面解析 | 第43-44页 |
·信息提取 | 第44-45页 |
·基于模糊模式识别的信息分类方法 | 第45-51页 |
·模糊模式识别基本概念 | 第45-46页 |
·特征选择与样本类别统计 | 第46-49页 |
·最大隶属度原则下的因素权重估计 | 第49-50页 |
·基于S型隶属函数分类方法 | 第50-51页 |
·对贴子进行计算并分类 | 第51页 |
·本章小结 | 第51-53页 |
第四章 垂直搜索引擎的信息索引及检索设计 | 第53-62页 |
·基于Lucene信息索引实现 | 第53-55页 |
·全文检索工具Lucene介绍 | 第53-54页 |
·运用Lucene建立论坛贴子文件索引 | 第54-55页 |
·Lucene索引的分布式应用及扩展性 | 第55页 |
·论坛信息的数据库存储 | 第55-57页 |
·基于用户查询的信息检索实现 | 第57-60页 |
·基于用户查询的索引缓存方法 | 第57-59页 |
·构建用户搜索 | 第59-60页 |
·本章小结 | 第60-62页 |
第五章 分布式垂直搜索引擎系统设计 | 第62-79页 |
·分布式搜索引擎基本技术 | 第62-69页 |
·分布式基本原理 | 第62-66页 |
·大型通用搜索引擎的分布式系统框架 | 第66-69页 |
·基于分布式元搜索引擎的分布式垂直搜索引擎系统设计 | 第69-74页 |
·分布式垂直搜索引擎系统框架 | 第69-70页 |
·分布式爬虫方法 | 第70-72页 |
·数据同步备份和索引合并方法 | 第72-74页 |
·负载均衡方法 | 第74页 |
·分布式垂直搜索引擎用户接口单元方法 | 第74-76页 |
·CORBA运行机理 | 第74-76页 |
·基于CORBA方式的分布式用户检索方法 | 第76页 |
·分布式搜索引擎的扩展性分析 | 第76-77页 |
·本章小结 | 第77-79页 |
结束语 | 第79-80页 |
致谢 | 第80-81页 |
参考文献 | 第81-84页 |
作者在学期间取得的学术成果 | 第84-85页 |
附录A 扩展Extractor类的末网页判定 | 第85-87页 |
附录B 链接过滤的扩展schedule()方法 | 第87-88页 |
附录C Lucene建立索引Document()和IndexProcesser()方法 | 第88-90页 |
附录D 数据库添加数据方法 | 第90-92页 |
附录E OSCache缓存类 | 第92-93页 |