基于Lucene的中文分词技术研究与实现
摘要 | 第1-4页 |
ABSTRACT | 第4-8页 |
第1章 绪论 | 第8-15页 |
·中文分词 | 第8页 |
·中文分词的研究背景 | 第8-9页 |
·中文分词的研究现状及意义 | 第9-11页 |
·中文分词的处理方法 | 第9-10页 |
·中文分词中的难题 | 第10-11页 |
·中文分词的研究现状及意义 | 第11-12页 |
·中文分词应用的当前主流搜索引擎简介 | 第12-14页 |
·本文主要工作和思路 | 第14-15页 |
第2章 Lucene分析与设计 | 第15-34页 |
·Lucene简介 | 第15页 |
·Lucene的主要功能及特点 | 第15-16页 |
·Lucene包结构 | 第16-17页 |
·Lucene的系统结构图 | 第17-19页 |
·Lucene的索引结构 | 第19-26页 |
·Lucene的索引分析 | 第19-23页 |
·使用Lucene进行索引的核心算法 | 第23-24页 |
·使用Lucene实现检索的核心算法 | 第24-25页 |
·Lucene索引文件格式 | 第25页 |
·倒排索引原理 | 第25-26页 |
·Lucene的分析器 | 第26-30页 |
·Lucene自带的中文分词算法 | 第26-27页 |
·改进的中文分词算法 | 第27-30页 |
·实验结果 | 第30-33页 |
·准备工作 | 第30页 |
·运行环境 | 第30-33页 |
·结果比较 | 第33页 |
·本章小结 | 第33-34页 |
第3章 中文分词模块的设计 | 第34-50页 |
·MyChAnalyzer的构造过程 | 第34-36页 |
·分词词典的构造与维护 | 第36-39页 |
·分词算法详述 | 第39-43页 |
·变量说明 | 第39页 |
·算法主要核心思想 | 第39-40页 |
·算法实现 | 第40-43页 |
·实验结果 | 第43-49页 |
·分词器速度测试 | 第43-44页 |
·精度测试 | 第44-48页 |
·分词系统比较 | 第48-49页 |
·本章小结 | 第49-50页 |
第4章 Lucene的结果排序算法改进 | 第50-58页 |
·以页面内容为基础的算法 | 第50-51页 |
·PageRank算法的提出 | 第51-52页 |
·PageRank基本原理 | 第52-54页 |
·Direct Hit算法 | 第54-55页 |
·Lucene排序结果的改进算法 | 第55-56页 |
·算法分析 | 第56-58页 |
第5章 总结与展望 | 第58-59页 |
·总结 | 第58页 |
·展望 | 第58-59页 |
参考文献 | 第59-62页 |
附录A:中文分词程序 | 第62-66页 |
本文作者硕士期间的科研成果 | 第66-67页 |
致谢 | 第67-68页 |