首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

主题爬虫关键技术研究

摘要第1-6页
Abstract第6-10页
第1章 绪论第10-14页
   ·研究背景及意义第10页
   ·国内外研究现状第10-12页
   ·本文内容和组织结构第12-14页
第2章 爬虫关键技术研究第14-30页
   ·爬虫的爬行策略第14-17页
     ·宏观上的爬行策略第15页
     ·微观上的爬行策略第15-17页
   ·网页的获取第17-21页
     ·HTTP 协议第17-18页
     ·HTTP 报文件结构第18-19页
     ·HTTP 超文本传输协议请求报文的一些方法第19-20页
     ·HTML 语法分析第20-21页
   ·主题相关度技术第21-29页
     ·网页中提取信息资源第21-25页
     ·中文分词算法第25-27页
     ·分词中的难题第27-28页
     ·3GWS 分词系统第28-29页
   ·本章小结第29-30页
第3章 搜索策略算法研究第30-44页
   ·主题爬虫搜索策略的研究第30-33页
     ·基于内容的搜索策略第31-32页
     ·基于链接的搜索策略第32-33页
   ·PageRank 算法第33-43页
     ·PageRank 值的计算第36-40页
     ·PageRank 算法的优缺点第40页
     ·PageRank 算法的改进第40-43页
   ·本章小结第43-44页
第4章 主题相关度算法研究第44-59页
   ·基于 VSM 的相似度计算方法第44-49页
     ·相关度计算的理论模型第44-45页
     ·权重的计算方法第45-47页
     ·基于 VSM 的相似度计算第47-49页
   ·相关度算法的改进第49-51页
     ·语义加强的权重计算方法第49-50页
     ·分阶段融合的语义相似度计算方法第50-51页
   ·URL 规模较大时的消重第51-57页
     ·重复网页特点第52-53页
     ·重复网页分类第53-54页
     ·URL 消重算法改进第54-57页
   ·本章小结第57-59页
第5章 实验结果分析第59-64页
     ·系统平台第59页
     ·数据库的实现第59页
     ·系统的界面以及操作流程第59-61页
   ·实验数据分析第61-63页
     ·改进的搜索策略的实验结果分析第61-62页
     ·改进的相关度计算的实验结果分析第62-63页
   ·本章小结第63-64页
结论第64-66页
参考文献第66-70页
致谢第70页

论文共70页,点击 下载论文
上一篇:低辐射剂量CT重建方法的研究
下一篇:基于多核的高效节能实时任务调度算法研究