基于Lucene和Heritrix的职位垂直搜索引擎的设计与实现
摘要 | 第1-6页 |
Abstract | 第6-9页 |
第一章 引言 | 第9-17页 |
·课题背景 | 第9-10页 |
·课题意义 | 第10页 |
·通用搜索引擎 | 第10-14页 |
·搜索引擎的工作原理 | 第10-11页 |
·搜索引擎发展史 | 第11-12页 |
·搜索引擎发展趋势 | 第12-13页 |
·搜索引擎分类 | 第13-14页 |
·垂直搜索引擎 | 第14-17页 |
·什么是垂直搜索引擎 | 第14页 |
·传统搜索引擎和垂直搜索引擎的区别 | 第14-16页 |
·垂直搜索引擎国内外现状 | 第16-17页 |
第二章 垂直搜索引擎理论与技术 | 第17-26页 |
·信息采集技术 | 第17-21页 |
·基本工作原理 | 第17-19页 |
·抓取策略 | 第19-20页 |
·垂直搜索中的信息采集 | 第20-21页 |
·信息提取技术 | 第21-23页 |
·信息提取介绍 | 第21页 |
·信息提取方法 | 第21-22页 |
·信息提取相关技术 | 第22-23页 |
·中文分词技术 | 第23-26页 |
·中文分词介绍 | 第23-24页 |
·中文分词相关技术 | 第24-26页 |
第三章 本系统用到的相关技术 | 第26-43页 |
·MDA 简介 | 第26-28页 |
·MDA 开发程序 | 第26-27页 |
·MDA 整体框架 | 第27-28页 |
·LUCENE 简介 | 第28-34页 |
·Lucene 组织结构 | 第28-29页 |
·Lucene 索引文件结构 | 第29-31页 |
·核心的索引类 | 第31-32页 |
·核心的搜索类 | 第32页 |
·Lucene 的全文检索 | 第32-34页 |
·HERITRIX 简介 | 第34-38页 |
·Heritrix 工作原理 | 第34-35页 |
·Heritrix 组织结构 | 第35-38页 |
·HTMLPARSER 简介 | 第38-43页 |
·HTMLParser 的主要作用 | 第38-39页 |
·HTMLParser 中数据结构 | 第39-40页 |
·HTMLParser 访问内容 | 第40-43页 |
第四章 垂直搜索引擎设计与实现 | 第43-78页 |
·系统总体需求分析和设计 | 第43-44页 |
·爬虫模块的设计实现 | 第44-52页 |
·信息抽取模块的设计实现 | 第52-60页 |
·索引模块的设计实现 | 第60-70页 |
·搜索模块的设计实现 | 第70-78页 |
第五章 总结和展望 | 第78-79页 |
致谢 | 第79-80页 |
参考文献 | 第80-81页 |