首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于Nutch的Web结构挖掘算法研究

内容摘要第1-5页
ABSTRACT第5-8页
第1章 绪论第8-11页
   ·选题背景及意义第8-9页
   ·国内外相关研究综述第9-10页
   ·论文各部分的内容安排第10-11页
第2章 Web挖掘技术简介第11-23页
   ·Web挖掘的分类第11-14页
     ·Web内容挖掘第11-12页
     ·Web结构挖掘第12-13页
     ·Web访问信息挖掘第13-14页
   ·Web结构挖掘算法概述第14-23页
     ·PageRank算法第14-18页
     ·HITS算法第18-21页
     ·PageRank算法与HITS算法的比较第21-23页
第3章 搜索引擎相关知识及Nutch介绍第23-28页
   ·搜索引擎相关知识第23-26页
     ·搜索引擎的主要技术第23-24页
     ·搜索引擎的关键技术第24页
     ·搜索引擎性能评测指标第24-26页
   ·Nutch的介绍第26-28页
     ·Lucene第26页
     ·Nutch第26-28页
第4章 PageRank算法研究与改进第28-37页
   ·算法的改进第28-31页
     ·对PageRank算法偏重旧网页现象的改进第28-29页
     ·对PageRank算法主题漂移现象的改进第29-31页
     ·对PageRank算法平均网页权值现象的改进第31页
   ·分类技术与基于链接结构的算法结合第31-37页
     ·分类技术第32-33页
     ·网页的预处理第33-35页
     ·基于数据库相关度的PageRank算法第35页
     ·PageRank算法最终修正第35-37页
第5章 实验分析第37-47页
   ·实验准备第37-40页
     ·实验环境第37页
     ·抓取网页准备第37-38页
     ·测试结果第38-40页
   ·实验方案第40-43页
     ·传统的PageRank算法流程第40-41页
     ·改进后的PageRank算法流程第41-43页
   ·实验步骤第43-45页
     ·主题选取第43页
     ·数据的收集第43-45页
   ·实验结果与分析第45-47页
第6章 总结与展望第47-48页
参考文献第48-51页
后记第51页

论文共51页,点击 下载论文
上一篇:统计学三大分布的历史演进--x~2分布、t分布、F分布
下一篇:基于分区的信息安全风险评估研究