微博短文本检索关键技术研究

摘要	第4-6页
Abstract	第6-7页
第1章绪论	第11-21页
1.1 本文的研究背景	第11-13页
1.2 本文研究目的和意义	第13-15页
1.3 相关研究综述	第15-19页
1.3.1 信息检索模型	第15-16页
1.3.2 微博检索	第16-18页
1.3.3 Lemur 工具	第18-19页
1.4 本文的内容组织和结构	第19-21页
第2章实时性语言模型	第21-35页
2.1 语言模型相关工作	第21-23页
2.1.1 语言模型	第21-22页
2.1.2 平滑方法	第22-23页
2.2 相关文档的时间分布分析	第23-28页
2.2.1 两种考虑检索结果实时性的方法	第23-24页
2.2.2 实时性在微博检索中的真实情况	第24-28页
2.3 基于热点时间的语言模型	第28-29页
2.3.1 热点时间	第28-29页
2.3.2 基于热点时间的语言模型	第29页
2.4 实验数据和评价指标	第29-32页
2.4.1 实验数据	第29-32页
2.4.2 评测指标	第32页
2.5 实验结果及分析	第32-34页
2.6 本章小结	第34-35页
第3章融入时间信息的查询建模	第35-46页
3.1 基于实时性的查询扩展	第35-37页
3.1.1 微博排序中利用文档平均“年龄”的可行性	第35-36页
3.1.2 融入实时性的查询扩展	第36-37页
3.2 针对多波峰主题相关的查询扩展	第37-39页
3.3 融合实时性与多波峰主题相关的查询扩展	第39-42页
3.4 实验结果与分析	第42-44页
3.4.1 实验配置	第42-43页
3.4.2 实验结果与分析	第43-44页
3.5 本章小结	第44-46页
第4章基于参考文档模型的微博文本检索	第46-57页
4.1 微博短文本检索的关键问题分析	第46-48页
4.1.1 当前反馈技术存在的问题	第46-47页
4.1.2 微博短文本在文档建模中潜在的困难	第47-48页
4.2 参考文档模型	第48-49页
4.3 基于概率空间的参考文档模型	第49-51页
4.3.1 基于伪反馈的文档建模	第49-50页
4.3.2 相关性模型	第50-51页
4.4 实验结果与分析	第51-55页
4.4.1 实验设计	第51页
4.4.2 基于待检索文档集的参考文档模型性能	第51-52页
4.4.3 基于 URL 资源的参考文档模型性能	第52-53页
4.4.4 选用不同参考文档集的性能比较	第53-54页
4.4.5 文档增益对检索性能的影响分析	第54-55页
4.5 本章小结	第55-57页
第5章基于排序学习模型的微博文本检索	第57-67页
5.1 引言	第57-58页
5.2 基于 Ranking SVM 的微博排序学习模型	第58-60页
5.3 排序学习模型的特征抽取	第60-62页
5.3.1 特征类别	第60-61页
5.3.2 特征集合构造	第61-62页
5.4 实验结果及分析	第62-66页
5.4.1 实验工具与数据	第62页
5.4.2 使用全部的特征	第62-63页
5.4.3 仅使用单个特征	第63-64页
5.4.4 按特征类别	第64页
5.4.5 leave-one-out 特征实验结果	第64-65页
5.4.6 文本相似度特征与其他类别单一特征组合	第65页
5.4.7 利用贪心算法选最优特征集	第65-66页
5.5 本章小结	第66-67页
结论	第67-69页
附录一预处理后的结构化 Tweet 样例	第69-70页
附录二本文实验中的微博查询样例	第70-71页
附录三 TREC 2012 微博实时检索评测参赛队伍	第71-72页
参考文献	第72-77页
攻读学位期间发表的学术论文	第77-79页
致谢	第79页