摘要 | 第5-6页 |
ABSTRACT | 第6-7页 |
第1章 绪论 | 第10-17页 |
1.1 研究背景与选题意义 | 第10-11页 |
1.2 国内外研究现状 | 第11-14页 |
1.2.1 搜索引擎的发展历史 | 第11-13页 |
1.2.2 企业搜索与互联网搜索的区别 | 第13页 |
1.2.3 企业搜索研究现状 | 第13-14页 |
1.3 论文的主要研究内容 | 第14-15页 |
1.4 论文的组织结构 | 第15-17页 |
第2章 搜索引擎排序算法及用户行为分析的相关技术研究 | 第17-41页 |
2.1 互联网搜索引擎系统基本架构 | 第17-22页 |
2.2 通用搜索引擎排序算法 | 第22-25页 |
2.2.1 词频和位置加权排序算法 | 第22-23页 |
2.2.2 HITS算法 | 第23-24页 |
2.2.3 Direct Hit算法 | 第24-25页 |
2.2.4 Hilltop算法 | 第25页 |
2.3 PageRank算法 | 第25-30页 |
2.3.1 PageRank算法的基本原理 | 第26-27页 |
2.3.2 PageRank算法的计算实例 | 第27-30页 |
2.3.3 PageRank算法与HITS算法比较 | 第30页 |
2.4 互联网用户行为分析 | 第30-33页 |
2.4.1 用户行为分析的相关概念 | 第31页 |
2.4.2 用户群体宏观统计分析 | 第31-32页 |
2.4.3 用户查询需求分析 | 第32页 |
2.4.4 用户群体点击行为分析 | 第32页 |
2.4.5 互联网用户浏览行为分析 | 第32-33页 |
2.5 用户点击行为特征及相关性分析 | 第33-38页 |
2.5.1 用户点击行为特征 | 第33-34页 |
2.5.2 用户点击行为特征分析 | 第34页 |
2.5.3 用户点击与查询相关性的形式化分析 | 第34-36页 |
2.5.4 贝叶斯点击模型 | 第36-38页 |
2.6 Lucene检索结果排序算法研究 | 第38-40页 |
2.7 本章小结 | 第40-41页 |
第3章 基于初始向量预估计和引入排名波动率对PageRank算法的改进 | 第41-50页 |
3.1 PageRank算法的流程 | 第41-42页 |
3.2 对PageRank算法的改进 | 第42-48页 |
3.2.1 从网页链入总数入手对PageRank初始向量预估计 | 第42-45页 |
3.2.2 以排名波动率作为PageRank停止迭代准则 | 第45-48页 |
3.3 改进的PageRank算法的基本流程 | 第48页 |
3.4 本章小结 | 第48-50页 |
第4章 基于用户点击行为的排序算法的设计 | 第50-56页 |
4.1 基于用户行为的研究 | 第50-52页 |
4.1.1 搜索日志的构建 | 第50-51页 |
4.1.2 搜索日志的组成内容 | 第51-52页 |
4.2 基于查询词历史点击率对网页贡献率的排序算法的设计 | 第52-54页 |
4.2.1 分解查询词 | 第52页 |
4.2.2 计算查询词对网页贡献率 | 第52-53页 |
4.2.3 更新历史查询词集合 | 第53页 |
4.2.4 基于查询词历史点击率对网页贡献率的排序算法主要工作流程 | 第53-54页 |
4.3 基于查询词历史点击率的排序算法计算公式 | 第54-55页 |
4.4 本章小结 | 第55-56页 |
第5章 企业搜索引擎系统的实现与实验结果分析 | 第56-72页 |
5.1 搜索结果评价方法 | 第56-57页 |
5.2 实验环境介绍 | 第57页 |
5.3 基于Lucene企业搜索引擎系统的设计与实现 | 第57-61页 |
5.3.1 中文分词器的实现 | 第58页 |
5.3.2 索引管理器实现 | 第58-60页 |
5.3.3 检索结果排序 | 第60-61页 |
5.4 实验数据收集 | 第61-63页 |
5.5 改进的PageRank算法实验及分析 | 第63-68页 |
5.5.1 实验方法及步骤 | 第63-65页 |
5.5.2 实验结果分析 | 第65-68页 |
5.6 基于改进的PageRank和用户点击模型的排序算法分析 | 第68-71页 |
5.6.1 实验方法及步骤 | 第68-70页 |
5.6.2 实验结果分析 | 第70-71页 |
5.7 本章小结 | 第71-72页 |
第6章 结论与展望 | 第72-75页 |
6.1 本文工作总结 | 第72-73页 |
6.2 进一步的研究方向及展望 | 第73-75页 |
参考文献 | 第75-79页 |
致谢 | 第79页 |