中文分词技术在搜索引擎中的研究与应用

摘要	第3-4页
ABSTRACT	第4-5页
1 绪论	第8-15页
1.1 研究背景与意义	第8-9页
1.2 中文分词研究现状	第9-10页
1.3 搜索引擎概述	第10-13页
1.3.1 搜索引擎简介	第10-11页
1.3.2 搜索引擎发展历史及现状	第11-13页
1.4 本文研究内容	第13-14页
1.5 论文结构安排	第14-15页
2 中文分词概述	第15-28页
2.1 中文分词词典机制	第15-19页
2.1.1 基于整词二分词典机制	第15-16页
2.1.2 基于Trie索引树词典机制	第16-17页
2.1.3 基于逐字二分词典机制	第17-18页
2.1.4 基于双字哈希的词典机制	第18-19页
2.2 中文分词主要方法	第19-22页
2.2.1 基于字符串匹配的分词算法	第20-21页
2.2.2 基于统计的分词算法	第21-22页
2.2.3 基于理解的分词算法	第22页
2.3 中文分词难点	第22-27页
2.3.1 分词歧义	第22-24页
2.3.2 新词识别	第24页
2.3.3 分词规范	第24-25页
2.3.4 歧义采集方法	第25-27页
2.4 本章小结	第27-28页
3 最大匹配算法改进及词典优化	第28-42页
3.1 最大匹配算法分析及改进	第28-34页
3.1.1 最大匹配算法分析	第29-30页
3.1.2 最大匹配算法改进思路	第30-32页
3.1.3 改进后的正向最大匹配算法	第32-34页
3.2 双字哈希词长分组词典机制设计	第34-36页
3.3 基于双字哈希词长分组词典结构的最大匹配改进算法	第36-39页
3.4 分词歧义处理	第39-41页
3.5 本章小结	第41-42页
4 改进算法在Lucene中的应用实现	第42-55页
4.1 搜索引擎开发平台Lucene	第42-44页
4.2 Lucene系统结构	第44-46页
4.3 Lucene索引和检索实现	第46-47页
4.3.1 Lucene索引实现	第46-47页
4.3.2 Lucene检索实现	第47页
4.4 中文分词模块框架设计	第47-49页
4.5 构造GaiJinAnalyzer分词器	第49-52页
4.6 优化的词典机制实现	第52-53页
4.6.1 词典的结构	第52页
4.6.2 词典的建立	第52-53页
4.7 基于改进算法的分词工具	第53-54页
4.8 本章小结	第54-55页
5 实验结果及性能测试	第55-61页
5.1 算法测试环境及衡量标准	第55页
5.2 实验结果及性能比较	第55-60页
5.2.1 验证词典性能	第57-58页
5.2.2 分词算法比较	第58-60页
5.3 实验结果总结	第60-61页
总结与展望	第61-63页
参考文献	第63-66页
致谢	第66-67页
攻读学位期间发表的学术论文	第67-69页