垂直搜索引擎技术的研究及实现

摘要	第1-6页
ABSTRACT	第6-9页
第一章绪论	第9-13页
·研究背景	第9页
·搜索引擎发展历史与现状	第9-10页
·课题研究的意义	第10-11页
·论文的组织结构	第11-13页
第二章搜索引擎原理	第13-25页
·综合搜索引擎	第13-20页
·搜索引擎的工作过程	第13-15页
·搜索引擎的系统架构	第15-18页
·搜索引擎的相关策略与技术	第18-20页
·垂直搜索引擎	第20-25页
·垂直搜索引擎概述	第20页
·垂直搜索引擎和综合搜索引擎的区别与应用方向	第20-23页
·垂直搜索引擎的主要技术	第23-25页
第三章网页信息搜集	第25-41页
·Heritrix的框架组成	第25-33页
·抓取任务CrawlOrder	第26页
·中央控制器CrawlController	第26-28页
·Frontier链接制造工厂	第28-29页
·用Berkeley DB实现的BdbFrontier	第29-32页
·Heritrix的多线程ToeThread和ToePool	第32页
·处理链和Processor	第32-33页
·扩展和定制Heritrix	第33-36页
·向Heritrix中添加自己的Extractor	第33-34页
·扩展FrontierScheduler来抓取特定的内容	第34-35页
·在Prefetcher中取消robots.txt的限制	第35-36页
·深度优先查找算法与广度优先查找算法	第36-41页
·深度优先查找(depth-first search,DFS)算法	第36-38页
·广度优先查找(breadth-first search,BFS)算法	第38-41页
第四章网页信息预处理	第41-59页
·全文检索引擎Lucene框架	第41-45页
·全文检索与全文检索系统	第41-43页
·Lucene的系统结构	第43-45页
·Lucene的索引结构分析	第45-48页
·用trie实现倒排索引的研究	第48-59页
·trie	第48页
·标准trie	第48-51页
·压缩trie	第51-52页
·后缀trie	第52-55页
·trie在搜索引擎中的应用	第55-59页
第五章垂直搜索引擎的实现	第59-75页
·Eclipse环境的搭建	第59-62页
·安装配置Heritrix 1.12.1	第59-61页
·在Eclipse中启动Heritrix	第61-62页
·在Eclipse中创建mypaper工程结构	第62页
·网页信息搜集	第62-63页
·网页信息处理	第63-72页
·网页内容提取方法	第63-64页
·解析网页信息的Extractor	第64-67页
·构建产品信息词库	第67-68页
·索引与数据库	第68-72页
·提供网页信息服务	第72-75页
·后台程序的设计	第72-74页
·前台程序的设计	第74-75页
第六章总结与展望	第75-77页
参考文献	第77-79页
致谢	第79页