基于Lucene的搜索引擎优化
致谢 | 第1-6页 |
中文摘要 | 第6-7页 |
ABSTRACT | 第7-10页 |
1 引言 | 第10-18页 |
·课题背景介绍 | 第10-11页 |
·国内外相关技术调研 | 第11-14页 |
·搜索引擎发展及分类 | 第12-13页 |
·全文检索系统介绍 | 第13页 |
·中文分词简介 | 第13-14页 |
·项目中遇到的问题以及解决方法 | 第14-16页 |
·对Lucene的中分分词模块的重构 | 第14页 |
·建立分词词典 | 第14-15页 |
·分词算法设计 | 第15页 |
·搜索结果集排序算法的设计与改进工作 | 第15-16页 |
·本课题的研究意义 | 第16-17页 |
·论文结构 | 第17-18页 |
2 全文检索引擎Lucene的分析与研究 | 第18-25页 |
·Lucene简介 | 第18页 |
·Lucene的主要功能与特点 | 第18-20页 |
·Lucene的主要功能 | 第18-19页 |
·Lucene的特点 | 第19-20页 |
·Lucene的包结构 | 第20-21页 |
·Lucene全文检索引擎框架分析 | 第21-25页 |
·Lucene系统结构分析 | 第21-22页 |
·Lucene数据流分析 | 第22-23页 |
·Lucene索引机制分析 | 第23-25页 |
3 Lucene中文分词模块的重构 | 第25-39页 |
·构造中文分析器 | 第25-27页 |
·分词字典的构造与维护 | 第27-31页 |
·中文分词算法介绍 | 第31页 |
·分词规范及分词原则 | 第31页 |
·中文分词的重要难点 | 第31-32页 |
·歧义识别 | 第31-32页 |
·新词识别 | 第32页 |
·Lucene中文分词算法改进 | 第32-36页 |
·算法思想 | 第32-33页 |
·中文分词算法实现 | 第33-36页 |
·中文分词算法实验结果分析 | 第36-39页 |
4 Lucene检索结果排序算法的改进 | 第39-48页 |
·词频位置加权排序算法介绍 | 第39-40页 |
·Direct Hit算法介绍 | 第40页 |
·PageRank算法介绍 | 第40-41页 |
·PageRank算法分析 | 第41-43页 |
·PageRank算法的缺陷 | 第43-45页 |
·PageRank偏重旧网页 | 第43页 |
·判断网页的权值时,忽视了站点的权威性 | 第43-44页 |
·从网页中指出的超链接,对网页PR值影响不相同 | 第44-45页 |
·Lucene排序算法改进 | 第45页 |
·Lucene排序算法实验结果分析 | 第45-48页 |
5 总结 | 第48-49页 |
参考文献 | 第49-50页 |
附录A | 第50-53页 |
附录B | 第53-56页 |
附录C | 第56-61页 |
学位论文数据集 | 第61页 |