网络原创文章优先的搜索引擎排序算法研究
| 摘要 | 第1-4页 |
| ABSTRACT | 第4-8页 |
| 1 绪论 | 第8-18页 |
| ·搜索引擎的现状 | 第8-10页 |
| ·搜索引擎的发展历史 | 第8-9页 |
| ·搜索引擎的分类 | 第9-10页 |
| ·典型搜索引擎介绍 | 第10-12页 |
| ·Google | 第10-11页 |
| ·Baidu | 第11页 |
| ·Yahoo | 第11页 |
| ·Sogou | 第11-12页 |
| ·SEO 技术 | 第12-16页 |
| ·SEO 技术的主要方法和策略 | 第12-13页 |
| ·SEO 技术的发展趋势 | 第13-14页 |
| ·网页作弊的几种方式 | 第14-16页 |
| ·本文的主要工作 | 第16-17页 |
| ·本章小结 | 第17-18页 |
| 2 经典排序算法及其比较 | 第18-28页 |
| ·PageRank 算法 | 第18-21页 |
| ·HITS 算法 | 第21-23页 |
| ·Hilltop 算法 | 第23页 |
| ·收费排名 | 第23-25页 |
| ·经典算法评价 | 第25-27页 |
| ·PageRank 算法的缺点与改进 | 第25-26页 |
| ·HITS 算法的缺点与改进 | 第26页 |
| ·经典排序算法对网络原创文章的不公平之处 | 第26-27页 |
| ·本章小结 | 第27-28页 |
| 3 网络原创文章的判定算法 | 第28-32页 |
| ·网络文章的分类 | 第28页 |
| ·网站的三个“信用度” | 第28-29页 |
| ·文章原创可能性的确定 | 第29-30页 |
| ·文章原创可能性对网站信用度的修正 | 第30-31页 |
| ·本章小结 | 第31-32页 |
| 4 原创优先的搜索引擎排序算法 | 第32-42页 |
| ·内容重复网页的确定 | 第32-36页 |
| ·网页的重复特点 | 第32页 |
| ·现有网页去重的方法简介 | 第32-33页 |
| ·基于特征串重复网页判定方法 | 第33-36页 |
| ·原创文章判定结果对网页权威度的修正 | 第36-38页 |
| ·综合排序模型 | 第38-41页 |
| ·基于网页内容的相关度算法 | 第38-39页 |
| ·最终检索排名方法 | 第39-41页 |
| ·本章小结 | 第41-42页 |
| 5 原型系统研究 | 第42-57页 |
| ·技术选型 | 第42-43页 |
| ·数据库选择 | 第42页 |
| ·搜索引擎平台选择 | 第42页 |
| ·开发平台选择 | 第42-43页 |
| ·Nutch | 第43-48页 |
| ·Lucene | 第43-46页 |
| ·Nutch 爬虫 | 第46-48页 |
| ·系统设计与实现 | 第48-55页 |
| ·系统用例 | 第48-49页 |
| ·系统构建流程 | 第49-50页 |
| ·系统结构分析 | 第50页 |
| ·主要数据表定义 | 第50-52页 |
| ·程序设计 | 第52-54页 |
| ·程序运行效果 | 第54-55页 |
| ·算法验证 | 第55页 |
| ·算法验证方法 | 第55页 |
| ·结果分析 | 第55页 |
| ·本章小结 | 第55-57页 |
| 6 结论与展望 | 第57-59页 |
| ·总结 | 第57页 |
| ·展望 | 第57-59页 |
| 致谢 | 第59-60页 |
| 参考文献 | 第60-62页 |
| 附录 | 第62页 |