首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

面向大规模信息检索的中文分词技术研究

声明第1页
论文版权使用授权书第2-3页
摘要第3-4页
ABSTRACT第4-6页
目录第6-9页
图目录第9-11页
表目录第11-12页
第一章 引言第12-20页
   ·研究意义第12-13页
   ·信息检索(Information Retrieval)简介第13-15页
     ·文本操作第14页
     ·标引和倒排文档第14-15页
     ·查询操作第15页
     ·排序第15页
   ·中文分词简介及困难第15-17页
     ·分词规范第15-16页
     ·分词算法的困难第16-17页
   ·相关评测指标第17-18页
   ·本文的贡献第18-19页
   ·论文的组织第19-20页
第二章 面向大规模中文信息检索的分词算法第20-35页
   ·前人在分词方面的相关工作第20-25页
     ·基于词典和规则的方法第20-22页
     ·基于大规模语料库的统计方法第22-24页
     ·规则和统计结合的方法第24页
     ·基于字的切分法第24-25页
   ·分词和大规模中文信息检索之间的关系探讨第25-32页
     ·分词对中文信息检索的影响第25-29页
     ·分词精度与检索性能的关系第29-32页
   ·适用于大规模中文信息检索的分词算法第32-34页
   ·本章小结第34-35页
第三章 基于双数组Trie树优化算法的词典第35-45页
   ·常用词典算法介绍第35-38页
   ·双数组Trie树(Double-Array Trie)优化算法第38-44页
     ·双数组Trie树算法介绍及其优化第38-41页
     ·相应的词典算法第41-43页
     ·实验结果与分析第43-44页
   ·本章小结第44-45页
第四章 歧义消除第45-53页
   ·交叉歧义检测第45-47页
   ·基于双字耦合度和t-测试差的消歧算法第47-52页
     ·双字耦合度(Coupling Degree of Double Character,CDDC)第47-49页
     ·t-测试差(difference of t-test)第49-51页
     ·双字耦合度和t-测试差的结合第51-52页
   ·交叉歧义消除实验结果第52页
   ·本章小结第52-53页
第五章 未登录词识别第53-59页
   ·字的位置成词概率第53-55页
   ·局部二元串频统计第55-56页
   ·实验结果第56-57页
   ·本章小结第57-59页
第六章 查询扩展层面的覆盖歧义处理第59-64页
   ·查询扩展简介第59-60页
     ·基于用户反馈的信息第59页
     ·基于用户最初检索出的文档信息第59页
     ·利用所有文档集合的信息第59-60页
   ·词典的二次索引第60-62页
   ·基于词典二次索引的查询扩展第62-63页
   ·本章小结第63-64页
第七章 实验结果和分析第64-72页
   ·分词性能测试第64-68页
     ·评测指标第64-65页
     ·测试结果第65-68页
   ·基于IRSEG系统的检索性能测试第68-72页
     ·评测指标第68页
     ·测试结果第68-72页
第八章 结束语第72-73页
   ·本文工作总结第72页
   ·下一步研究方向第72-73页
参考文献第73-76页
致谢第76-78页
作者简历第78页

论文共78页,点击 下载论文
上一篇:基于MEMS技术的自吸微泵的研制
下一篇:单相400Hz中频电压源逆变器的输出控制及其并联运行控制