基于Lucene的中文分词技术研究与实现

摘要	第1-4页
ABSTRACT	第4-8页
第1章绪论	第8-15页
·中文分词	第8页
·中文分词的研究背景	第8-9页
·中文分词的研究现状及意义	第9-11页
·中文分词的处理方法	第9-10页
·中文分词中的难题	第10-11页
·中文分词的研究现状及意义	第11-12页
·中文分词应用的当前主流搜索引擎简介	第12-14页
·本文主要工作和思路	第14-15页
第2章 Lucene分析与设计	第15-34页
·Lucene简介	第15页
·Lucene的主要功能及特点	第15-16页
·Lucene包结构	第16-17页
·Lucene的系统结构图	第17-19页
·Lucene的索引结构	第19-26页
·Lucene的索引分析	第19-23页
·使用Lucene进行索引的核心算法	第23-24页
·使用Lucene实现检索的核心算法	第24-25页
·Lucene索引文件格式	第25页
·倒排索引原理	第25-26页
·Lucene的分析器	第26-30页
·Lucene自带的中文分词算法	第26-27页
·改进的中文分词算法	第27-30页
·实验结果	第30-33页
·准备工作	第30页
·运行环境	第30-33页
·结果比较	第33页
·本章小结	第33-34页
第3章中文分词模块的设计	第34-50页
·MyChAnalyzer的构造过程	第34-36页
·分词词典的构造与维护	第36-39页
·分词算法详述	第39-43页
·变量说明	第39页
·算法主要核心思想	第39-40页
·算法实现	第40-43页
·实验结果	第43-49页
·分词器速度测试	第43-44页
·精度测试	第44-48页
·分词系统比较	第48-49页
·本章小结	第49-50页
第4章 Lucene的结果排序算法改进	第50-58页
·以页面内容为基础的算法	第50-51页
·PageRank算法的提出	第51-52页
·PageRank基本原理	第52-54页
·Direct Hit算法	第54-55页
·Lucene排序结果的改进算法	第55-56页
·算法分析	第56-58页
第5章总结与展望	第58-59页
·总结	第58页
·展望	第58-59页
参考文献	第59-62页
附录A：中文分词程序	第62-66页
本文作者硕士期间的科研成果	第66-67页
致谢	第67-68页