首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

可扩展分布式垂直搜索引擎设计与实现研究

摘要第1-12页
ABSTRACT第12-13页
第一章 引言第13-21页
   ·课题研究背景第13-15页
   ·Web搜索引擎研究综述第15-20页
     ·搜索引擎研究现状第15-18页
     ·垂直搜索引擎研究现状第18-20页
   ·课题设计思路及论文安排第20-21页
第二章 垂直搜索引擎工作原理和相关技术第21-34页
   ·垂直搜索引擎的体系结构第21-22页
   ·信息搜集第22-26页
     ·Crawler基本原理第22-23页
     ·深度优先和广度优先第23-24页
     ·不重复抓取策略第24-25页
     ·网络爬虫Heritrix第25-26页
   ·信息提取及索引第26-29页
     ·页面解析原理第26-28页
     ·倒排索引技术第28-29页
   ·信息检索第29-33页
     ·信息检索中的查询技术第29-31页
     ·信息检索中的排序技术第31-33页
   ·本章小结第33-34页
第三章 基于聚焦爬虫原理的垂直搜索引擎信息搜集方法第34-53页
   ·聚焦爬虫基本概念第34-36页
     ·聚焦爬虫的原理第34页
     ·聚焦爬虫的结构第34-36页
   ·基于树形超链结构的论坛聚焦爬虫方法第36-41页
     ·主题页面的分布特征第36-37页
     ·论坛树形网络结构第37-39页
     ·基于树形超链结构的Heritrix爬虫实现第39-40页
     ·利用爬虫程序抓取外国军事论坛第40-41页
     ·Heritrix爬虫程序多任务扩展第41页
   ·模板式网页信息提取第41-45页
     ·HTMLParser页面提取技术第42-43页
     ·页面解析第43-44页
     ·信息提取第44-45页
   ·基于模糊模式识别的信息分类方法第45-51页
     ·模糊模式识别基本概念第45-46页
     ·特征选择与样本类别统计第46-49页
     ·最大隶属度原则下的因素权重估计第49-50页
     ·基于S型隶属函数分类方法第50-51页
     ·对贴子进行计算并分类第51页
   ·本章小结第51-53页
第四章 垂直搜索引擎的信息索引及检索设计第53-62页
   ·基于Lucene信息索引实现第53-55页
     ·全文检索工具Lucene介绍第53-54页
     ·运用Lucene建立论坛贴子文件索引第54-55页
     ·Lucene索引的分布式应用及扩展性第55页
   ·论坛信息的数据库存储第55-57页
   ·基于用户查询的信息检索实现第57-60页
     ·基于用户查询的索引缓存方法第57-59页
     ·构建用户搜索第59-60页
   ·本章小结第60-62页
第五章 分布式垂直搜索引擎系统设计第62-79页
   ·分布式搜索引擎基本技术第62-69页
     ·分布式基本原理第62-66页
     ·大型通用搜索引擎的分布式系统框架第66-69页
   ·基于分布式元搜索引擎的分布式垂直搜索引擎系统设计第69-74页
     ·分布式垂直搜索引擎系统框架第69-70页
     ·分布式爬虫方法第70-72页
     ·数据同步备份和索引合并方法第72-74页
     ·负载均衡方法第74页
   ·分布式垂直搜索引擎用户接口单元方法第74-76页
     ·CORBA运行机理第74-76页
     ·基于CORBA方式的分布式用户检索方法第76页
   ·分布式搜索引擎的扩展性分析第76-77页
   ·本章小结第77-79页
结束语第79-80页
致谢第80-81页
参考文献第81-84页
作者在学期间取得的学术成果第84-85页
附录A 扩展Extractor类的末网页判定第85-87页
附录B 链接过滤的扩展schedule()方法第87-88页
附录C Lucene建立索引Document()和IndexProcesser()方法第88-90页
附录D 数据库添加数据方法第90-92页
附录E OSCache缓存类第92-93页

论文共93页,点击 下载论文
上一篇:利用虚拟场景预测的传感器图像配准方法研究
下一篇:基于ARM的机车监控显示系统研究与设计