基于统计语言模型的搜索引擎输入纠错技术研究

摘要	第6-7页
Abstract	第7-8页
第1章绪论	第13-17页
1.1 研究背景与意义	第13-14页
1.2 研究现状分析	第14-15页
1.3 主要研究内容	第15页
1.4 本文组织结构	第15-17页
第2章全文搜索及其应用技术概述	第17-33页
2.1 全文检索关键技术概述	第17-24页
2.1.1 索引技术概况	第17-19页
2.1.2 倒排索引概况	第19-20页
2.1.3 倒排索引索引性能模型	第20-22页
2.1.4 倒排索引文件的压缩技术	第22-24页
2.1.5 倒排索引性能与功能分析	第24页
2.2 Lucene介绍	第24-28页
2.2.1 Lucene简介	第24-25页
2.2.2 Lucene系统结构	第25-26页
2.2.3 Lucene索引机制	第26-27页
2.2.4 Lucene的分词	第27-28页
2.3 理论模型和实验平台搭建的选择	第28页
2.4 Nutch+Hadoop实验平台	第28-32页
2.4.1 Nutch+Hadoop简介	第28-31页
2.4.2 实验环境	第31页
2.4.3 系统架构	第31-32页
2.5 本章小结	第32-33页
第3章统计语言模型的建立与分析	第33-45页
3.1 基于N-gram的语言模型	第33-34页
3.2 N值的选定	第34-35页
3.3 模型的建立	第35-37页
3.4 数据稀疏问题	第37-38页
3.4.1 齐普夫（Zipf）定律	第37页
3.4.2 平滑技术的引入	第37-38页
3.5 输入关键词的分析与统计信息的比较	第38-40页
3.6 实验数据集	第40页
3.7 实验数据统计	第40-43页
3.7.1 初始状态下的查询成功率	第41页
3.7.2 建立语言模型后的数据分析	第41-43页
3.8 本章小结	第43-45页
第4章关键词的权重统计比较	第45-49页
4.1 TF-IDF公式介绍	第45-46页
4.2 权重的分析比较	第46-47页
4.3 实验数据统计	第47-48页
4.4 本章小结	第48-49页
第5章全文总结与研究展望	第49-53页
5.1 全文总结	第49-50页
5.2 进一步研究	第50-53页
参考文献	第53-55页
攻读硕士学位期间发表的论文情况	第55-57页
致谢	第57页