微博检索结果优化研究

摘要	第4-5页
ABSTRACT	第5页
第一章绪论	第9-13页
1.1 课题研究背景	第9-10页
1.2 本文研究内容和意义	第10-11页
1.3 论文结构	第11-13页
第二章文本检索相关技术	第13-21页
2.1 信息检索技术概况	第13-14页
2.2 常见的文本检索模型	第14-16页
2.2.1 布尔模型	第14页
2.2.2 向量空间模型	第14页
2.2.3 概率检索模型	第14-15页
2.2.4 语言模型	第15页
2.2.5 Learning to rank( LTR)模型	第15页
2.2.6 几种排序模型的比较	第15-16页
2.3 Learning to rank排序模型	第16-18页
2.3.1 Pointwise	第16-17页
2.3.2 Pairwise	第17页
2.3.3 Listwise	第17-18页
2.4 信息检索系统衡量标准	第18-19页
2.4.1 P@k	第18页
2.4.2 MAP (Mean Average Precision)	第18页
2.4.3 NDCG(Normalized Discounted Cumulative Gain)	第18-19页
2.5 微博检索的研究现状	第19-20页
2.6 总结	第20-21页
第三章基于相关性提升的微博检索结果排序优化	第21-37页
3.1 实验数据的采集与预处理	第21-24页
3.1.1 微博语料的特点	第21-22页
3.1.2 数据预处理	第22-24页
3.2 特征选择	第24-26页
3.2.1 神经网络及Word2vec工具介绍	第24-25页
3.2.2 语义特征	第25-26页
3.2.3 推特结构特征	第26页
3.3 Learning to rank(LTR)模型对排序结果的影响	第26-30页
3.3.1 LTR模型的三种结构比较	第26-27页
3.3.2 决策树模型的组合GBDT模型	第27-28页
3.3.3 LTR与GBDT模型的结合	第28-29页
3.3.4 RankNet、LambdaRank、LambdaMART与本文使用的网络结构比较	第29-30页
3.4 实验结果的展示与分析	第30-33页
3.4.1 评价结果的指标	第30-31页
3.4.2 特征的有效性	第31-32页
3.4.3 模型结构的有效性	第32-33页
3.5 排序模型分话题效果及badcase分析	第33-36页
3.6 总结	第36-37页
第四章基于多样性的微博检索结果排序优化	第37-47页
4.1 聚类方法优化多样性排序	第37-41页
4.1.1 K-means聚类	第37页
4.1.2 句向量的表示方法研究	第37-39页
4.1.3 句向量与聚类结合优化多样性排序	第39-41页
4.2 去重算法优化多样性排序	第41-43页
4.2.1 Simhash去重算法研究	第41-42页
4.2.2 多样性优化实验效果及分析	第42-43页
4.3 去重与聚类方法的对比分析	第43-44页
4.4 总结	第44-47页
第五章 TREC微博检索评测流程设计	第47-57页
5.1 系统概述	第47-48页
5.2 预处理模块	第48页
5.3 索引模块	第48-50页
5.3.1 Lucene检索模型	第48-50页
5.3.2 Indri检索模型	第50页
5.4 查询扩展模块	第50-52页
5.4.1 TF~*IDF算法	第50-51页
5.4.2 词激活力算法(WAF)	第51-52页
5.5 结果重排序模块	第52-54页
5.5.1 高频词比例打分	第52页
5.5.2 亲密词比例打分	第52页
5.5.3 重要序列模式打分	第52-53页
5.5.4 外部语料打分	第53页
5.5.5 多元线性回归模型进行重排序	第53-54页
5.6 评测结果分析	第54页
5.7 总结	第54-57页
第六章总结与展望	第57-59页
参考文献	第59-63页
致谢	第63页