网络原创文章优先的搜索引擎排序算法研究
摘要 | 第1-4页 |
ABSTRACT | 第4-8页 |
1 绪论 | 第8-18页 |
·搜索引擎的现状 | 第8-10页 |
·搜索引擎的发展历史 | 第8-9页 |
·搜索引擎的分类 | 第9-10页 |
·典型搜索引擎介绍 | 第10-12页 |
·Google | 第10-11页 |
·Baidu | 第11页 |
·Yahoo | 第11页 |
·Sogou | 第11-12页 |
·SEO 技术 | 第12-16页 |
·SEO 技术的主要方法和策略 | 第12-13页 |
·SEO 技术的发展趋势 | 第13-14页 |
·网页作弊的几种方式 | 第14-16页 |
·本文的主要工作 | 第16-17页 |
·本章小结 | 第17-18页 |
2 经典排序算法及其比较 | 第18-28页 |
·PageRank 算法 | 第18-21页 |
·HITS 算法 | 第21-23页 |
·Hilltop 算法 | 第23页 |
·收费排名 | 第23-25页 |
·经典算法评价 | 第25-27页 |
·PageRank 算法的缺点与改进 | 第25-26页 |
·HITS 算法的缺点与改进 | 第26页 |
·经典排序算法对网络原创文章的不公平之处 | 第26-27页 |
·本章小结 | 第27-28页 |
3 网络原创文章的判定算法 | 第28-32页 |
·网络文章的分类 | 第28页 |
·网站的三个“信用度” | 第28-29页 |
·文章原创可能性的确定 | 第29-30页 |
·文章原创可能性对网站信用度的修正 | 第30-31页 |
·本章小结 | 第31-32页 |
4 原创优先的搜索引擎排序算法 | 第32-42页 |
·内容重复网页的确定 | 第32-36页 |
·网页的重复特点 | 第32页 |
·现有网页去重的方法简介 | 第32-33页 |
·基于特征串重复网页判定方法 | 第33-36页 |
·原创文章判定结果对网页权威度的修正 | 第36-38页 |
·综合排序模型 | 第38-41页 |
·基于网页内容的相关度算法 | 第38-39页 |
·最终检索排名方法 | 第39-41页 |
·本章小结 | 第41-42页 |
5 原型系统研究 | 第42-57页 |
·技术选型 | 第42-43页 |
·数据库选择 | 第42页 |
·搜索引擎平台选择 | 第42页 |
·开发平台选择 | 第42-43页 |
·Nutch | 第43-48页 |
·Lucene | 第43-46页 |
·Nutch 爬虫 | 第46-48页 |
·系统设计与实现 | 第48-55页 |
·系统用例 | 第48-49页 |
·系统构建流程 | 第49-50页 |
·系统结构分析 | 第50页 |
·主要数据表定义 | 第50-52页 |
·程序设计 | 第52-54页 |
·程序运行效果 | 第54-55页 |
·算法验证 | 第55页 |
·算法验证方法 | 第55页 |
·结果分析 | 第55页 |
·本章小结 | 第55-57页 |
6 结论与展望 | 第57-59页 |
·总结 | 第57页 |
·展望 | 第57-59页 |
致谢 | 第59-60页 |
参考文献 | 第60-62页 |
附录 | 第62页 |