基于Lucene和Heritrix的职位垂直搜索引擎的设计与实现

摘要	第1-6页
Abstract	第6-9页
第一章引言	第9-17页
·课题背景	第9-10页
·课题意义	第10页
·通用搜索引擎	第10-14页
·搜索引擎的工作原理	第10-11页
·搜索引擎发展史	第11-12页
·搜索引擎发展趋势	第12-13页
·搜索引擎分类	第13-14页
·垂直搜索引擎	第14-17页
·什么是垂直搜索引擎	第14页
·传统搜索引擎和垂直搜索引擎的区别	第14-16页
·垂直搜索引擎国内外现状	第16-17页
第二章垂直搜索引擎理论与技术	第17-26页
·信息采集技术	第17-21页
·基本工作原理	第17-19页
·抓取策略	第19-20页
·垂直搜索中的信息采集	第20-21页
·信息提取技术	第21-23页
·信息提取介绍	第21页
·信息提取方法	第21-22页
·信息提取相关技术	第22-23页
·中文分词技术	第23-26页
·中文分词介绍	第23-24页
·中文分词相关技术	第24-26页
第三章本系统用到的相关技术	第26-43页
·MDA 简介	第26-28页
·MDA 开发程序	第26-27页
·MDA 整体框架	第27-28页
·LUCENE 简介	第28-34页
·Lucene 组织结构	第28-29页
·Lucene 索引文件结构	第29-31页
·核心的索引类	第31-32页
·核心的搜索类	第32页
·Lucene 的全文检索	第32-34页
·HERITRIX 简介	第34-38页
·Heritrix 工作原理	第34-35页
·Heritrix 组织结构	第35-38页
·HTMLPARSER 简介	第38-43页
·HTMLParser 的主要作用	第38-39页
·HTMLParser 中数据结构	第39-40页
·HTMLParser 访问内容	第40-43页
第四章垂直搜索引擎设计与实现	第43-78页
·系统总体需求分析和设计	第43-44页
·爬虫模块的设计实现	第44-52页
·信息抽取模块的设计实现	第52-60页
·索引模块的设计实现	第60-70页
·搜索模块的设计实现	第70-78页
第五章总结和展望	第78-79页
致谢	第79-80页
参考文献	第80-81页