面向大规模信息检索的中文分词技术研究

声明	第1页
论文版权使用授权书	第2-3页
摘要	第3-4页
ABSTRACT	第4-6页
目录	第6-9页
图目录	第9-11页
表目录	第11-12页
第一章引言	第12-20页
·研究意义	第12-13页
·信息检索(Information Retrieval)简介	第13-15页
·文本操作	第14页
·标引和倒排文档	第14-15页
·查询操作	第15页
·排序	第15页
·中文分词简介及困难	第15-17页
·分词规范	第15-16页
·分词算法的困难	第16-17页
·相关评测指标	第17-18页
·本文的贡献	第18-19页
·论文的组织	第19-20页
第二章面向大规模中文信息检索的分词算法	第20-35页
·前人在分词方面的相关工作	第20-25页
·基于词典和规则的方法	第20-22页
·基于大规模语料库的统计方法	第22-24页
·规则和统计结合的方法	第24页
·基于字的切分法	第24-25页
·分词和大规模中文信息检索之间的关系探讨	第25-32页
·分词对中文信息检索的影响	第25-29页
·分词精度与检索性能的关系	第29-32页
·适用于大规模中文信息检索的分词算法	第32-34页
·本章小结	第34-35页
第三章基于双数组Trie树优化算法的词典	第35-45页
·常用词典算法介绍	第35-38页
·双数组Trie树(Double-Array Trie)优化算法	第38-44页
·双数组Trie树算法介绍及其优化	第38-41页
·相应的词典算法	第41-43页
·实验结果与分析	第43-44页
·本章小结	第44-45页
第四章歧义消除	第45-53页
·交叉歧义检测	第45-47页
·基于双字耦合度和t-测试差的消歧算法	第47-52页
·双字耦合度(Coupling Degree of Double Character，CDDC)	第47-49页
·t-测试差(difference of t-test)	第49-51页
·双字耦合度和t-测试差的结合	第51-52页
·交叉歧义消除实验结果	第52页
·本章小结	第52-53页
第五章未登录词识别	第53-59页
·字的位置成词概率	第53-55页
·局部二元串频统计	第55-56页
·实验结果	第56-57页
·本章小结	第57-59页
第六章查询扩展层面的覆盖歧义处理	第59-64页
·查询扩展简介	第59-60页
·基于用户反馈的信息	第59页
·基于用户最初检索出的文档信息	第59页
·利用所有文档集合的信息	第59-60页
·词典的二次索引	第60-62页
·基于词典二次索引的查询扩展	第62-63页
·本章小结	第63-64页
第七章实验结果和分析	第64-72页
·分词性能测试	第64-68页
·评测指标	第64-65页
·测试结果	第65-68页
·基于IRSEG系统的检索性能测试	第68-72页
·评测指标	第68页
·测试结果	第68-72页
第八章结束语	第72-73页
·本文工作总结	第72页
·下一步研究方向	第72-73页
参考文献	第73-76页
致谢	第76-78页
作者简历	第78页