基于Nutch的Web结构挖掘算法研究
| 内容摘要 | 第1-5页 |
| ABSTRACT | 第5-8页 |
| 第1章 绪论 | 第8-11页 |
| ·选题背景及意义 | 第8-9页 |
| ·国内外相关研究综述 | 第9-10页 |
| ·论文各部分的内容安排 | 第10-11页 |
| 第2章 Web挖掘技术简介 | 第11-23页 |
| ·Web挖掘的分类 | 第11-14页 |
| ·Web内容挖掘 | 第11-12页 |
| ·Web结构挖掘 | 第12-13页 |
| ·Web访问信息挖掘 | 第13-14页 |
| ·Web结构挖掘算法概述 | 第14-23页 |
| ·PageRank算法 | 第14-18页 |
| ·HITS算法 | 第18-21页 |
| ·PageRank算法与HITS算法的比较 | 第21-23页 |
| 第3章 搜索引擎相关知识及Nutch介绍 | 第23-28页 |
| ·搜索引擎相关知识 | 第23-26页 |
| ·搜索引擎的主要技术 | 第23-24页 |
| ·搜索引擎的关键技术 | 第24页 |
| ·搜索引擎性能评测指标 | 第24-26页 |
| ·Nutch的介绍 | 第26-28页 |
| ·Lucene | 第26页 |
| ·Nutch | 第26-28页 |
| 第4章 PageRank算法研究与改进 | 第28-37页 |
| ·算法的改进 | 第28-31页 |
| ·对PageRank算法偏重旧网页现象的改进 | 第28-29页 |
| ·对PageRank算法主题漂移现象的改进 | 第29-31页 |
| ·对PageRank算法平均网页权值现象的改进 | 第31页 |
| ·分类技术与基于链接结构的算法结合 | 第31-37页 |
| ·分类技术 | 第32-33页 |
| ·网页的预处理 | 第33-35页 |
| ·基于数据库相关度的PageRank算法 | 第35页 |
| ·PageRank算法最终修正 | 第35-37页 |
| 第5章 实验分析 | 第37-47页 |
| ·实验准备 | 第37-40页 |
| ·实验环境 | 第37页 |
| ·抓取网页准备 | 第37-38页 |
| ·测试结果 | 第38-40页 |
| ·实验方案 | 第40-43页 |
| ·传统的PageRank算法流程 | 第40-41页 |
| ·改进后的PageRank算法流程 | 第41-43页 |
| ·实验步骤 | 第43-45页 |
| ·主题选取 | 第43页 |
| ·数据的收集 | 第43-45页 |
| ·实验结果与分析 | 第45-47页 |
| 第6章 总结与展望 | 第47-48页 |
| 参考文献 | 第48-51页 |
| 后记 | 第51页 |