基于Nutch的Web结构挖掘算法研究
内容摘要 | 第1-5页 |
ABSTRACT | 第5-8页 |
第1章 绪论 | 第8-11页 |
·选题背景及意义 | 第8-9页 |
·国内外相关研究综述 | 第9-10页 |
·论文各部分的内容安排 | 第10-11页 |
第2章 Web挖掘技术简介 | 第11-23页 |
·Web挖掘的分类 | 第11-14页 |
·Web内容挖掘 | 第11-12页 |
·Web结构挖掘 | 第12-13页 |
·Web访问信息挖掘 | 第13-14页 |
·Web结构挖掘算法概述 | 第14-23页 |
·PageRank算法 | 第14-18页 |
·HITS算法 | 第18-21页 |
·PageRank算法与HITS算法的比较 | 第21-23页 |
第3章 搜索引擎相关知识及Nutch介绍 | 第23-28页 |
·搜索引擎相关知识 | 第23-26页 |
·搜索引擎的主要技术 | 第23-24页 |
·搜索引擎的关键技术 | 第24页 |
·搜索引擎性能评测指标 | 第24-26页 |
·Nutch的介绍 | 第26-28页 |
·Lucene | 第26页 |
·Nutch | 第26-28页 |
第4章 PageRank算法研究与改进 | 第28-37页 |
·算法的改进 | 第28-31页 |
·对PageRank算法偏重旧网页现象的改进 | 第28-29页 |
·对PageRank算法主题漂移现象的改进 | 第29-31页 |
·对PageRank算法平均网页权值现象的改进 | 第31页 |
·分类技术与基于链接结构的算法结合 | 第31-37页 |
·分类技术 | 第32-33页 |
·网页的预处理 | 第33-35页 |
·基于数据库相关度的PageRank算法 | 第35页 |
·PageRank算法最终修正 | 第35-37页 |
第5章 实验分析 | 第37-47页 |
·实验准备 | 第37-40页 |
·实验环境 | 第37页 |
·抓取网页准备 | 第37-38页 |
·测试结果 | 第38-40页 |
·实验方案 | 第40-43页 |
·传统的PageRank算法流程 | 第40-41页 |
·改进后的PageRank算法流程 | 第41-43页 |
·实验步骤 | 第43-45页 |
·主题选取 | 第43页 |
·数据的收集 | 第43-45页 |
·实验结果与分析 | 第45-47页 |
第6章 总结与展望 | 第47-48页 |
参考文献 | 第48-51页 |
后记 | 第51页 |