声明 | 第1页 |
论文版权使用授权书 | 第2-3页 |
摘要 | 第3-4页 |
ABSTRACT | 第4-6页 |
目录 | 第6-9页 |
图目录 | 第9-11页 |
表目录 | 第11-12页 |
第一章 引言 | 第12-20页 |
·研究意义 | 第12-13页 |
·信息检索(Information Retrieval)简介 | 第13-15页 |
·文本操作 | 第14页 |
·标引和倒排文档 | 第14-15页 |
·查询操作 | 第15页 |
·排序 | 第15页 |
·中文分词简介及困难 | 第15-17页 |
·分词规范 | 第15-16页 |
·分词算法的困难 | 第16-17页 |
·相关评测指标 | 第17-18页 |
·本文的贡献 | 第18-19页 |
·论文的组织 | 第19-20页 |
第二章 面向大规模中文信息检索的分词算法 | 第20-35页 |
·前人在分词方面的相关工作 | 第20-25页 |
·基于词典和规则的方法 | 第20-22页 |
·基于大规模语料库的统计方法 | 第22-24页 |
·规则和统计结合的方法 | 第24页 |
·基于字的切分法 | 第24-25页 |
·分词和大规模中文信息检索之间的关系探讨 | 第25-32页 |
·分词对中文信息检索的影响 | 第25-29页 |
·分词精度与检索性能的关系 | 第29-32页 |
·适用于大规模中文信息检索的分词算法 | 第32-34页 |
·本章小结 | 第34-35页 |
第三章 基于双数组Trie树优化算法的词典 | 第35-45页 |
·常用词典算法介绍 | 第35-38页 |
·双数组Trie树(Double-Array Trie)优化算法 | 第38-44页 |
·双数组Trie树算法介绍及其优化 | 第38-41页 |
·相应的词典算法 | 第41-43页 |
·实验结果与分析 | 第43-44页 |
·本章小结 | 第44-45页 |
第四章 歧义消除 | 第45-53页 |
·交叉歧义检测 | 第45-47页 |
·基于双字耦合度和t-测试差的消歧算法 | 第47-52页 |
·双字耦合度(Coupling Degree of Double Character,CDDC) | 第47-49页 |
·t-测试差(difference of t-test) | 第49-51页 |
·双字耦合度和t-测试差的结合 | 第51-52页 |
·交叉歧义消除实验结果 | 第52页 |
·本章小结 | 第52-53页 |
第五章 未登录词识别 | 第53-59页 |
·字的位置成词概率 | 第53-55页 |
·局部二元串频统计 | 第55-56页 |
·实验结果 | 第56-57页 |
·本章小结 | 第57-59页 |
第六章 查询扩展层面的覆盖歧义处理 | 第59-64页 |
·查询扩展简介 | 第59-60页 |
·基于用户反馈的信息 | 第59页 |
·基于用户最初检索出的文档信息 | 第59页 |
·利用所有文档集合的信息 | 第59-60页 |
·词典的二次索引 | 第60-62页 |
·基于词典二次索引的查询扩展 | 第62-63页 |
·本章小结 | 第63-64页 |
第七章 实验结果和分析 | 第64-72页 |
·分词性能测试 | 第64-68页 |
·评测指标 | 第64-65页 |
·测试结果 | 第65-68页 |
·基于IRSEG系统的检索性能测试 | 第68-72页 |
·评测指标 | 第68页 |
·测试结果 | 第68-72页 |
第八章 结束语 | 第72-73页 |
·本文工作总结 | 第72页 |
·下一步研究方向 | 第72-73页 |
参考文献 | 第73-76页 |
致谢 | 第76-78页 |
作者简历 | 第78页 |