首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

垂直搜索引擎技术的研究及实现

摘要第1-6页
ABSTRACT第6-9页
第一章 绪论第9-13页
   ·研究背景第9页
   ·搜索引擎发展历史与现状第9-10页
   ·课题研究的意义第10-11页
   ·论文的组织结构第11-13页
第二章 搜索引擎原理第13-25页
   ·综合搜索引擎第13-20页
     ·搜索引擎的工作过程第13-15页
     ·搜索引擎的系统架构第15-18页
     ·搜索引擎的相关策略与技术第18-20页
   ·垂直搜索引擎第20-25页
     ·垂直搜索引擎概述第20页
     ·垂直搜索引擎和综合搜索引擎的区别与应用方向第20-23页
     ·垂直搜索引擎的主要技术第23-25页
第三章 网页信息搜集第25-41页
   ·Heritrix的框架组成第25-33页
     ·抓取任务CrawlOrder第26页
     ·中央控制器CrawlController第26-28页
     ·Frontier链接制造工厂第28-29页
     ·用Berkeley DB实现的BdbFrontier第29-32页
     ·Heritrix的多线程ToeThread和ToePool第32页
     ·处理链和Processor第32-33页
   ·扩展和定制Heritrix第33-36页
     ·向Heritrix中添加自己的Extractor第33-34页
     ·扩展FrontierScheduler来抓取特定的内容第34-35页
     ·在Prefetcher中取消robots.txt的限制第35-36页
   ·深度优先查找算法与广度优先查找算法第36-41页
     ·深度优先查找(depth-first search,DFS)算法第36-38页
     ·广度优先查找(breadth-first search,BFS)算法第38-41页
第四章 网页信息预处理第41-59页
   ·全文检索引擎Lucene框架第41-45页
     ·全文检索与全文检索系统第41-43页
     ·Lucene的系统结构第43-45页
   ·Lucene的索引结构分析第45-48页
   ·用trie实现倒排索引的研究第48-59页
     ·trie第48页
     ·标准trie第48-51页
     ·压缩trie第51-52页
     ·后缀trie第52-55页
     ·trie在搜索引擎中的应用第55-59页
第五章 垂直搜索引擎的实现第59-75页
   ·Eclipse环境的搭建第59-62页
     ·安装配置Heritrix 1.12.1第59-61页
     ·在Eclipse中启动Heritrix第61-62页
     ·在Eclipse中创建mypaper工程结构第62页
   ·网页信息搜集第62-63页
   ·网页信息处理第63-72页
     ·网页内容提取方法第63-64页
     ·解析网页信息的Extractor第64-67页
     ·构建产品信息词库第67-68页
     ·索引与数据库第68-72页
   ·提供网页信息服务第72-75页
     ·后台程序的设计第72-74页
     ·前台程序的设计第74-75页
第六章 总结与展望第75-77页
参考文献第77-79页
致谢第79页

论文共79页,点击 下载论文
上一篇:视景可视化及漫游技术的研究与实现
下一篇:矿山采掘计划辅助决策支持系统的研究与应用