基于统计的搜索引擎中文输入纠错技术研究

摘要	第1-5页
ABSTRACT	第5-10页
第一章引言	第10-16页
·研究背景与意义	第10-11页
·研究现状分析	第11-14页
·本文的主要研究内容	第14页
·本文的组织结构	第14-16页
第二章搜索引擎及其应用技术概述	第16-24页
·搜索引擎的基本原理与体系结构	第16-21页
·网页爬取	第16-18页
·预处理阶段	第18-19页
·关键词的提取	第18页
·网页去重	第18页
·链接分析	第18-19页
·网页查询结果排序	第19页
·查询结果	第19-20页
·搜索引擎的体系结构	第20-21页
·LUCENE全文检索工具包	第21-23页
·LUCENE的简介	第21-22页
·LUCENE全文检索包与本文研究内容的关系	第22-23页
·本章小结	第23-24页
第三章统计语言模型的分析与建立	第24-34页
·基于N-GRAM的语言模型	第24-25页
·N值的选定	第25-27页
·模型的建立	第27-29页
·数据稀疏问题	第29-31页
·齐普夫(ZIPF)定律	第29-30页
·平滑技术的引入	第30-31页
·输入关键词的分析与统计信息的比较	第31-32页
·本章小结	第32-34页
第四章关键词的权重统计比较	第34-38页
·词频率-逆向文档频率(TF/IDF)	第34-35页
·权重的分析比较	第35页
·本章小结	第35-38页
第五章实验平台与实验数据分析	第38-48页
·论模型与实验平台搭建的选择	第38页
·NUTCH+HADOOP实验平台	第38-41页
·NUTCH和HADOOP概述	第38-40页
·实验环境	第40页
·系统架构	第40-41页
·实验标准评价	第41-42页
·实验数据集	第42页
·实验数据统计	第42-46页
·初始状态下的查询成功率	第43页
·建立语言模型后的数据分析	第43-45页
·分析关键词权重后的统计结果	第45-46页
·实验数据分析	第46页
·本章小结	第46-48页
第六章全文总结与研究展望	第48-52页
·全文总结	第48-49页
·进一步的研究	第49-52页
参考文献	第52-56页
致谢	第56-58页
攻读学位期间发表的学术论文目录	第58-60页
附录1 中文分析器核心代码	第60-71页