首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于兴趣推送的主题爬虫研究

摘要第1-4页
ABSTRACT第4-5页
目录第5-7页
第一章 绪论第7-11页
   ·研究背景及意义第7-8页
   ·国内外研究现状第8-9页
   ·本论文所作的主要工作第9页
   ·本论文的组织结构第9-11页
第二章 主题爬虫原理及技术第11-25页
   ·爬虫原理第11-14页
     ·通用爬虫第11-13页
     ·主题爬虫工作原理第13-14页
   ·主题爬虫相关技术介绍第14-20页
     ·网页信息的提取第14-15页
     ·中文分词技术第15-16页
     ·主题相关度判断第16-20页
       ·向量空间模型第16-19页
       ·布尔模型第19-20页
       ·贝叶斯方法第20页
   ·Heritrix框架及Lucene搜索引擎第20-23页
     ·Heritrix框架第20-22页
     ·Lucene搜索引擎第22-23页
   ·本章小结第23-25页
第三章 PageRank算法研究及改进第25-33页
   ·Google的PageRank算法第25-27页
     ·PageRank算法介绍第25-27页
     ·PageRank算法的优缺点第27页
   ·PageRank算法的改进第27-30页
     ·基于链接结构和网页内容的主题相关性分析第28页
     ·网页主题的相关性计算第28-30页
       ·基于url的相关性计算第28-29页
       ·基于网页内容的相关性计算第29-30页
   ·兴趣发现与预测算法第30-31页
   ·通过相关性影响因素和兴趣推送计算网页权重第31-32页
   ·本章小结第32-33页
第四章 系统分析及设计第33-47页
   ·系统分析第33-34页
     ·基本性能分析第33-34页
     ·基本功能需求分析第34页
   ·系统设计第34-45页
     ·系统开发环境第35页
     ·数码产品主题爬虫设计第35-36页
     ·系统模块第36-45页
       ·用户接口模块第37页
       ·系统爬虫模块第37-42页
       ·数据库设计第42-43页
       ·索引模块第43-44页
       ·检索模块第44-45页
       ·Web页面设计第45页
   ·本章小结第45-47页
第五章 实验结果及数据分析第47-53页
   ·给定标准第47页
   ·实验设计第47-48页
   ·实验结果及分析第48-52页
   ·本章小结第52-53页
第六章 总结与展望第53-55页
致谢第55-57页
参考文献第57-61页
附录A (攻读硕士期间发表的论文)第61页

论文共61页,点击 下载论文
上一篇:企业E-Learning网络学习行为分析及研究
下一篇:基于Hash的RFID静态ID隐私保护认证协议与两方隐私保护标签所有权转移协议的研究与设计