首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

聚焦爬虫技术研究

摘要第1-4页
ABSTRACT第4-8页
第一章 绪论第8-12页
   ·课题研究的背景第8-9页
   ·研究现状第9-11页
   ·本文的主要研究内容第11页
   ·本文的组织结构安排第11-12页
第二章 搜索引擎技术概述第12-22页
   ·搜索引擎基本要求第12页
   ·搜索引擎的分类第12-13页
   ·搜索引擎的体系结构第13-17页
     ·网络爬虫第14-16页
     ·索引第16页
     ·信息检索第16页
     ·用户接口第16-17页
   ·聚焦爬虫概述第17-21页
     ·主题式垂直搜索引擎概述第17页
     ·聚焦爬虫的特点第17-18页
     ·聚焦爬虫的工作流程第18-19页
     ·聚焦爬虫系统体系结构第19-21页
   ·本章小结第21-22页
第三章 聚焦爬虫技术的研究第22-32页
   ·主题描述第22页
   ·主题WEB 页面分布特征第22-24页
     ·中心页面特性第23页
     ·主题关联特性第23-24页
     ·主题聚集特性第24页
     ·隧道特性第24页
   ·网页分析算法第24-31页
     ·基于链接结构的网页分析算法第25-27页
     ·基于内容的网页分析算法第27-28页
     ·聚焦爬虫的网页爬行策略第28-31页
   ·本章小结第31-32页
第四章 基于综合爬行策略聚焦爬虫系统的设计与实现.第32-51页
   ·基于综合爬行策略的聚焦爬虫系统的体系结构第32-33页
   ·初始种子网页的选取第33页
   ·CRAWLER 剖析第33-39页
     ·HTTP/HTTPS 下载模块第34-35页
     ·DNS 解析器第35页
     ·下载模块控制器第35-36页
     ·Crawler 任务管理器第36-37页
     ·机器人拒绝协议第37-39页
   ·URL 的提取第39页
   ·WEB 内容分析第39页
   ·WEB 数据库第39-40页
   ·基于超链接结构和内容的综合爬行策略第40-46页
     ·超链接结构价值的计算第40-41页
     ·主题特征词库构建第41-42页
     ·主题特征向量的计算第42-43页
     ·内容的主题相关度第43-44页
     ·基于网页综合价值的爬行算法第44-46页
     ·超文本分类系统第46页
   ·实验结果与分析第46-50页
     ·性能评价方法第47页
     ·多种主题上的实验结果第47-48页
     ·初始样本数量的影响第48-49页
     ·综合价值中因子K 的影响第49-50页
   ·本章小结第50-51页
第五章 结论与展望第51-53页
   ·结论第51页
   ·展望第51-53页
致谢第53-54页
参考文献第54-58页
附录:作者在攻读硕士学位期间发表的论文第58页

论文共58页,点击 下载论文
上一篇:基于P2P网络的搜索算法的研究
下一篇:基于任意拓扑网的细分改进算法研究