首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

主题爬虫的实现及其关键技术研究

摘要第1-5页
Abstract第5-10页
第1章 绪论第10-14页
   ·概述第10-11页
   ·国内外研究现状第11-13页
   ·本文的内容与组织结构第13-14页
第2章 爬虫的体系结构第14-22页
   ·搜索引擎简介第14-16页
     ·搜索引擎的基本原理第14-15页
     ·搜索引擎的分类第15-16页
   ·通用爬虫的体系结构第16-19页
   ·主题爬虫的体系结构第19-21页
   ·本章小结第21-22页
第3章 主题爬虫系统设计与分析第22-38页
   ·系统总体设计第22-24页
     ·系统模块设计第22-23页
     ·系统流程设计第23-24页
   ·网页的获取第24-28页
     ·HTTP协议第25-27页
       ·请求消息的格式第25-26页
       ·响应消息的格式第26-27页
     ·Socket通信第27-28页
   ·网页内容的分析第28-33页
     ·网页的类型第28-29页
     ·网页的表示第29-31页
     ·标签树的建立第31-33页
     ·正文和超链的提取第33页
   ·中文分词第33-36页
     ·中文分词算法第34-35页
     ·分词中的难题第35-36页
     ·中科院分词系统第36页
   ·本章小结第36-38页
第4章 主题爬虫关键算法的研究与改进第38-53页
   ·搜索策略的改进第38-47页
     ·宏观上的搜索策略第39页
     ·微观上的搜索策略第39-45页
       ·简单实用的两种搜索策略第40-42页
       ·基于内容的搜索策略第42页
       ·基于链接的搜索策略第42-44页
       ·各种策略的比较第44-45页
     ·隧道现象第45页
     ·常规解决方法第45-46页
     ·常规方法的改进第46-47页
   ·相关度算法的改进第47-49页
     ·相关度计算的理论模型第47-48页
     ·相关度计算的改进模型第48-49页
   ·大规模网页的存储第49-50页
   ·大规模URL的消重第50-52页
   ·本章小结第52-53页
第5章 系统实现和实验数据分析第53-59页
   ·系统的实现第53-56页
     ·系统平台第53页
     ·数据库的实现第53-54页
     ·系统的界面第54-56页
   ·实验数据分析第56-58页
     ·改进的搜索策略的实验结果分析第56-57页
     ·改进的相关度计算的实验结果分析第57页
     ·系统的整体运行效果第57-58页
   ·本章小结第58-59页
第6章 总结与展望第59-60页
参考文献第60-63页
致谢第63-64页
攻读硕士学位期间发表的论文第64页

论文共64页,点击 下载论文
上一篇:基于边缘和颜色特征的图像检索技术研究
下一篇:基于GIS的三峡库区滑坡稳定性评价系统(单机版)设计与研发