基于LUCENE的主题搜索引擎研究与实现
| 摘要 | 第1-5页 |
| ABSTRACT | 第5-10页 |
| 1 绪论 | 第10-13页 |
| ·引言 | 第10页 |
| ·选题背景 | 第10-11页 |
| ·选题意义 | 第11-12页 |
| ·论文的主要研究工作 | 第12页 |
| ·论文的内容结构 | 第12-13页 |
| 2 搜索引擎基本知识 | 第13-22页 |
| ·搜索引擎发展的历史过程 | 第13-16页 |
| ·通用搜索引擎面临的问题 | 第16-17页 |
| ·主题搜索引擎的产生 | 第17页 |
| ·主题搜索引擎与综合搜索引擎的异同点 | 第17-20页 |
| ·主题搜索引擎和综合搜索引擎在信息服务上的异同 | 第17-18页 |
| ·主题搜索引擎和综合搜索引擎在关键技术上的异同 | 第18-20页 |
| ·主题搜索引擎国内外研究现状 | 第20-22页 |
| ·国外研究现状 | 第20页 |
| ·国内研究现状 | 第20-22页 |
| 3 主题搜索引擎爬取技术解析 | 第22-32页 |
| ·爬虫抓取的基本策略 | 第22-23页 |
| ·WEB 爬行原理 | 第23-25页 |
| ·Web 爬取器的结构 | 第23-24页 |
| ·Web 爬取策略 | 第24-25页 |
| ·搜索引擎经典算法 | 第25-32页 |
| ·PageRank 算法和Hits 算法 | 第25-28页 |
| ·基于页面内容的算法 | 第28页 |
| ·Shark 算法及其改进 | 第28-32页 |
| 4 全文检索框架LUCENE 剖析 | 第32-48页 |
| ·全文检索包LUCENE 的概述 | 第32-36页 |
| ·全文检索与全文检索系统 | 第32-33页 |
| ·Lucene 项目简介 | 第33-34页 |
| ·Lucene 框架组成 | 第34-36页 |
| ·LUCENE 索引技术 | 第36-40页 |
| ·倒排文件 | 第36-38页 |
| ·Lucene 索引的数据结构 | 第38-40页 |
| ·LUCENE 检索技术 | 第40-48页 |
| ·文档与词条向量空间 | 第40页 |
| ·tf-idf 加权策略 | 第40-41页 |
| ·Lucene 的文档得分算法 | 第41-42页 |
| ·Lucene 的排序策略 | 第42-48页 |
| 5 一个主题搜索引擎的实现 | 第48-76页 |
| ·项目总体系统设计 | 第48-49页 |
| ·信息采集子系统的设计与实现 | 第49-63页 |
| ·Heritrix 的介绍 | 第49-50页 |
| ·选取Heritrix 框架的原因 | 第50-51页 |
| ·基于Heritrix 框架的采集信息的实现 | 第51-56页 |
| ·手机网页信息的处理 | 第56-63页 |
| ·索引子系统的设计与实现 | 第63-69页 |
| ·产品信息词库的构建 | 第63-66页 |
| ·建立产品详细信息数据库和索引结构 | 第66-67页 |
| ·对索引进行操作 | 第67-69页 |
| ·查询子系统的实现 | 第69-76页 |
| ·Spring 框架和Ajax 概述 | 第69-70页 |
| ·主要功能 | 第70页 |
| ·查询子模块的具体实现 | 第70-76页 |
| 6 总结与展望 | 第76-78页 |
| 致谢 | 第78-79页 |
| 参考文献 | 第79-81页 |
| 附录 | 第81-83页 |