首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于统计的搜索引擎中文输入纠错技术研究

摘要第1-5页
ABSTRACT第5-10页
第一章 引言第10-16页
   ·研究背景与意义第10-11页
   ·研究现状分析第11-14页
   ·本文的主要研究内容第14页
   ·本文的组织结构第14-16页
第二章 搜索引擎及其应用技术概述第16-24页
   ·搜索引擎的基本原理与体系结构第16-21页
     ·网页爬取第16-18页
     ·预处理阶段第18-19页
       ·关键词的提取第18页
       ·网页去重第18页
       ·链接分析第18-19页
       ·网页查询结果排序第19页
     ·查询结果第19-20页
     ·搜索引擎的体系结构第20-21页
   ·LUCENE全文检索工具包第21-23页
     ·LUCENE的简介第21-22页
     ·LUCENE全文检索包与本文研究内容的关系第22-23页
   ·本章小结第23-24页
第三章 统计语言模型的分析与建立第24-34页
   ·基于N-GRAM的语言模型第24-25页
   ·N值的选定第25-27页
   ·模型的建立第27-29页
   ·数据稀疏问题第29-31页
     ·齐普夫(ZIPF)定律第29-30页
     ·平滑技术的引入第30-31页
   ·输入关键词的分析与统计信息的比较第31-32页
   ·本章小结第32-34页
第四章 关键词的权重统计比较第34-38页
   ·词频率-逆向文档频率(TF/IDF)第34-35页
   ·权重的分析比较第35页
   ·本章小结第35-38页
第五章 实验平台与实验数据分析第38-48页
   ·论模型与实验平台搭建的选择第38页
   ·NUTCH+HADOOP实验平台第38-41页
     ·NUTCH和HADOOP概述第38-40页
     ·实验环境第40页
     ·系统架构第40-41页
   ·实验标准评价第41-42页
   ·实验数据集第42页
   ·实验数据统计第42-46页
     ·初始状态下的查询成功率第43页
     ·建立语言模型后的数据分析第43-45页
     ·分析关键词权重后的统计结果第45-46页
   ·实验数据分析第46页
   ·本章小结第46-48页
第六章 全文总结与研究展望第48-52页
   ·全文总结第48-49页
   ·进一步的研究第49-52页
参考文献第52-56页
致谢第56-58页
攻读学位期间发表的学术论文目录第58-60页
附录1 中文分析器核心代码第60-71页

论文共71页,点击 下载论文
上一篇:基于J2EE的学生自主考试系统的设计与实现
下一篇:基于数据库外层加密的数据库加密系统的设计与实现