基于LUCENE的主题搜索引擎研究与实现
摘要 | 第1-5页 |
ABSTRACT | 第5-10页 |
1 绪论 | 第10-13页 |
·引言 | 第10页 |
·选题背景 | 第10-11页 |
·选题意义 | 第11-12页 |
·论文的主要研究工作 | 第12页 |
·论文的内容结构 | 第12-13页 |
2 搜索引擎基本知识 | 第13-22页 |
·搜索引擎发展的历史过程 | 第13-16页 |
·通用搜索引擎面临的问题 | 第16-17页 |
·主题搜索引擎的产生 | 第17页 |
·主题搜索引擎与综合搜索引擎的异同点 | 第17-20页 |
·主题搜索引擎和综合搜索引擎在信息服务上的异同 | 第17-18页 |
·主题搜索引擎和综合搜索引擎在关键技术上的异同 | 第18-20页 |
·主题搜索引擎国内外研究现状 | 第20-22页 |
·国外研究现状 | 第20页 |
·国内研究现状 | 第20-22页 |
3 主题搜索引擎爬取技术解析 | 第22-32页 |
·爬虫抓取的基本策略 | 第22-23页 |
·WEB 爬行原理 | 第23-25页 |
·Web 爬取器的结构 | 第23-24页 |
·Web 爬取策略 | 第24-25页 |
·搜索引擎经典算法 | 第25-32页 |
·PageRank 算法和Hits 算法 | 第25-28页 |
·基于页面内容的算法 | 第28页 |
·Shark 算法及其改进 | 第28-32页 |
4 全文检索框架LUCENE 剖析 | 第32-48页 |
·全文检索包LUCENE 的概述 | 第32-36页 |
·全文检索与全文检索系统 | 第32-33页 |
·Lucene 项目简介 | 第33-34页 |
·Lucene 框架组成 | 第34-36页 |
·LUCENE 索引技术 | 第36-40页 |
·倒排文件 | 第36-38页 |
·Lucene 索引的数据结构 | 第38-40页 |
·LUCENE 检索技术 | 第40-48页 |
·文档与词条向量空间 | 第40页 |
·tf-idf 加权策略 | 第40-41页 |
·Lucene 的文档得分算法 | 第41-42页 |
·Lucene 的排序策略 | 第42-48页 |
5 一个主题搜索引擎的实现 | 第48-76页 |
·项目总体系统设计 | 第48-49页 |
·信息采集子系统的设计与实现 | 第49-63页 |
·Heritrix 的介绍 | 第49-50页 |
·选取Heritrix 框架的原因 | 第50-51页 |
·基于Heritrix 框架的采集信息的实现 | 第51-56页 |
·手机网页信息的处理 | 第56-63页 |
·索引子系统的设计与实现 | 第63-69页 |
·产品信息词库的构建 | 第63-66页 |
·建立产品详细信息数据库和索引结构 | 第66-67页 |
·对索引进行操作 | 第67-69页 |
·查询子系统的实现 | 第69-76页 |
·Spring 框架和Ajax 概述 | 第69-70页 |
·主要功能 | 第70页 |
·查询子模块的具体实现 | 第70-76页 |
6 总结与展望 | 第76-78页 |
致谢 | 第78-79页 |
参考文献 | 第79-81页 |
附录 | 第81-83页 |