基于Lucene的中文分词技术研究与实现
| 摘要 | 第1-4页 |
| ABSTRACT | 第4-8页 |
| 第1章 绪论 | 第8-15页 |
| ·中文分词 | 第8页 |
| ·中文分词的研究背景 | 第8-9页 |
| ·中文分词的研究现状及意义 | 第9-11页 |
| ·中文分词的处理方法 | 第9-10页 |
| ·中文分词中的难题 | 第10-11页 |
| ·中文分词的研究现状及意义 | 第11-12页 |
| ·中文分词应用的当前主流搜索引擎简介 | 第12-14页 |
| ·本文主要工作和思路 | 第14-15页 |
| 第2章 Lucene分析与设计 | 第15-34页 |
| ·Lucene简介 | 第15页 |
| ·Lucene的主要功能及特点 | 第15-16页 |
| ·Lucene包结构 | 第16-17页 |
| ·Lucene的系统结构图 | 第17-19页 |
| ·Lucene的索引结构 | 第19-26页 |
| ·Lucene的索引分析 | 第19-23页 |
| ·使用Lucene进行索引的核心算法 | 第23-24页 |
| ·使用Lucene实现检索的核心算法 | 第24-25页 |
| ·Lucene索引文件格式 | 第25页 |
| ·倒排索引原理 | 第25-26页 |
| ·Lucene的分析器 | 第26-30页 |
| ·Lucene自带的中文分词算法 | 第26-27页 |
| ·改进的中文分词算法 | 第27-30页 |
| ·实验结果 | 第30-33页 |
| ·准备工作 | 第30页 |
| ·运行环境 | 第30-33页 |
| ·结果比较 | 第33页 |
| ·本章小结 | 第33-34页 |
| 第3章 中文分词模块的设计 | 第34-50页 |
| ·MyChAnalyzer的构造过程 | 第34-36页 |
| ·分词词典的构造与维护 | 第36-39页 |
| ·分词算法详述 | 第39-43页 |
| ·变量说明 | 第39页 |
| ·算法主要核心思想 | 第39-40页 |
| ·算法实现 | 第40-43页 |
| ·实验结果 | 第43-49页 |
| ·分词器速度测试 | 第43-44页 |
| ·精度测试 | 第44-48页 |
| ·分词系统比较 | 第48-49页 |
| ·本章小结 | 第49-50页 |
| 第4章 Lucene的结果排序算法改进 | 第50-58页 |
| ·以页面内容为基础的算法 | 第50-51页 |
| ·PageRank算法的提出 | 第51-52页 |
| ·PageRank基本原理 | 第52-54页 |
| ·Direct Hit算法 | 第54-55页 |
| ·Lucene排序结果的改进算法 | 第55-56页 |
| ·算法分析 | 第56-58页 |
| 第5章 总结与展望 | 第58-59页 |
| ·总结 | 第58页 |
| ·展望 | 第58-59页 |
| 参考文献 | 第59-62页 |
| 附录A:中文分词程序 | 第62-66页 |
| 本文作者硕士期间的科研成果 | 第66-67页 |
| 致谢 | 第67-68页 |