中文摘要 | 第1-6页 |
英文摘要 | 第6-8页 |
引 言 | 第8-17页 |
·信息检索简介 | 第8-9页 |
·信息检索的定义 | 第8-9页 |
·信息检索的基本流程 | 第9页 |
·本文的研究背景 | 第9-15页 |
·自然语言处理与统计语言模型 | 第9-15页 |
·本文所研究的问题 | 第15页 |
·本文的研究思路和组织框架 | 第15-17页 |
第一章 文本检索模型概述 | 第17-29页 |
·传统IR模型:Boolean、VSM、PM | 第17-23页 |
·三种经典的信息检索模型 | 第17-18页 |
·布尔(Boolean)模型 | 第18页 |
·向量(Vector)模型 | 第18-21页 |
·概率模型 | 第21-23页 |
·基于统计语言学模型的IR模型 | 第23-27页 |
·统计语言学模型(SLM) | 第23-24页 |
·基于SLM的IR模型 | 第24-27页 |
·各种模型的比较 | 第27-29页 |
第二章 SLM-IR相关的工作 | 第29-36页 |
·基本模型 | 第29-33页 |
·N元文法(N-gram) | 第29页 |
·隐马尔科夫模型(HMM) | 第29-33页 |
·互信息等方法 | 第33页 |
·几种改进模型 | 第33-34页 |
·标题语言模型(Title?Language?Model,sigir2002) | 第33页 |
·依赖结构模型(Dependency?Structure?Language?Model ,sigir2003) | 第33-34页 |
·两阶段语言模型(Zhai&Lafferty) | 第34页 |
·SLM-IR的反馈机制 | 第34-36页 |
第三章 基于SLM-IR的中文文本检索 | 第36-51页 |
·特征选择(unigram/bigram/trigram/word) | 第36页 |
·中文分词算法 | 第36-46页 |
·基于词典分词 | 第39-41页 |
·基于统计分词 | 第41-45页 |
·两种分词方法的比较 | 第45-46页 |
·基于中文切分的统计语言模型 | 第46-47页 |
·平滑技术对统计语言模型的影响 | 第47-49页 |
·基于Bigram切分的中文统计语言模型的改进 | 第49-51页 |
第四章 实验与结论 | 第51-56页 |
·实验准备 | 第51-54页 |
·Lemur工具箱 | 第51-52页 |
·?评价方法 | 第52页 |
·实验数据、实验方法以及其他相关工具 | 第52-54页 |
·实验结果分析 | 第54-56页 |
·中文统计语言模型IR与中文VSM、PM的性能比较分析 | 第54-55页 |
·中文统计语言模型IR之间的性能比较 | 第55-56页 |
第五章 总结和展望 | 第56-58页 |
参考文献 | 第58-60页 |
附录 | 第60-63页 |
致谢 | 第63-64页 |
作者简介 | 第64-65页 |
文献综述 | 第65-72页 |