首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

面向多任务、多通道并行爬虫的技术研究

摘要第1-4页
Abstract第4-9页
第1章 绪论第9-16页
   ·课题研究的背景和意义第9-11页
     ·课题研究的背景第9-11页
     ·课题简介第11页
     ·课题研究的意义第11页
   ·本文的主要研究内容第11-14页
     ·多任务管理和分配第12页
     ·多通道技术的运用第12页
     ·网站划分第12-13页
     ·爬虫间负载均衡和爬虫加入退出处理第13页
     ·资源处理第13-14页
   ·国内外研究现状第14-15页
     ·爬虫理论研究第14页
     ·爬虫技术与实现第14-15页
   ·论文结构安排第15-16页
第2章 网站划分策略第16-26页
   ·问题描述第16-17页
     ·传统的划分方式第16页
     ·本系统的特点第16-17页
   ·基于路径分配算法的网站划分第17-21页
     ·网站划分定义第17-19页
     ·确定URL 的路径第19页
     ·路径分配算法第19-21页
     ·选取种子URL第21页
   ·网站划分实验第21-25页
     ·网站划分评价指标第21-23页
     ·网站划分效果第23-25页
   ·本章小结第25-26页
第3章 多用户多任务管理及分配算法第26-39页
   ·问题描述第26页
   ·多任务管理策略第26-27页
   ·任务分配算法第27-35页
     ·取模法第28-29页
     ·一致性Hash 算法第29-31页
     ·分配算法对比实验第31-35页
   ·爬虫管理第35-38页
     ·爬虫加入处理第35-36页
     ·爬虫退出处理第36-37页
     ·任务迁移第37-38页
   ·本章小结第38-39页
第4章 多通道并行爬虫技术研究第39-51页
   ·爬虫技术第39-42页
     ·爬虫设计框架第39-40页
     ·网页去重第40页
     ·协议及格式控制第40页
     ·Robots 控制第40页
     ·DNS 缓存第40-41页
     ·链接管理第41页
     ·网页缓存第41页
     ·子链接提取第41-42页
   ·网页正文提取第42-45页
   ·RSS 内容提取第45-46页
   ·BBS 结构化信息提取第46-50页
     ·功能需求第46页
     ·实现方法第46-49页
     ·实验第49-50页
   ·本章小结第50-51页
第5章 面向多任务多通道并行爬虫的系统设计第51-63页
   ·系统总体结构第51-52页
     ·角色定义第51页
     ·系统结构设计第51-52页
   ·任务管理模块第52-58页
     ·数据结构第53-54页
     ·任务下发流程第54-55页
     ·任务取消流程第55-56页
     ·任务完成流程第56-57页
     ·任务分片定时启动第57-58页
   ·分布式信息存储第58-60页
     ·功能需求第58-59页
     ·实现方案第59-60页
   ·爬虫可扩展性实验第60-62页
   ·本章小结第62-63页
结论第63-65页
参考文献第65-68页
攻读学位期间发表的学术论文第68-70页
致谢第70页

论文共70页,点击 下载论文
上一篇:中文词语情感倾向研究
下一篇:视频驱动的三维唇动合成