首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于Hadoop的分布式爬虫及其实现

摘要第1-5页
ABSTRACT第5-10页
第一章 绪论第10-15页
   ·背景第10-12页
   ·研究工作第12-13页
   ·文章组织结构第13-15页
第二章 相关技术研究第15-37页
   ·云计算第15-20页
     ·云计算体系结构第16-17页
     ·计算服务层次第17-18页
     ·云计算技术层次第18-19页
     ·典型云计算平台第19-20页
   ·HADOOP分布式平台结构第20-31页
     ·HADOOP分布式文件系统第21-25页
     ·MAPREDUCE分布式计算第25-30页
     ·HADOOP的硬件布局第30-31页
   ·网络爬虫原理第31-37页
     ·搜索引擎基本技术第31-32页
     ·网络爬虫基本原理第32-33页
     ·分布式网络爬虫NUTCH第33-37页
第三章 分布式爬虫的设计方案第37-60页
   ·系统布局第37-39页
     ·分布式平台的系统架构第37-38页
     ·分布式搜索引擎的模块划分第38-39页
   ·网络爬虫采集原理第39-45页
     ·ROBOTS EXCLUSION PROTOCOL第41-42页
     ·网页抓取第42-43页
     ·文档解析第43-44页
     ·网页消重第44-45页
   ·爬虫的基本结构设计第45-51页
     ·爬虫的基本流程设计第45-47页
     ·爬虫的框架设计第47-48页
     ·爬虫的MAPREDUCE设计第48-51页
   ·爬虫模块的分布式改造第51-57页
     ·INJECT模块第51-53页
     ·GENERATE模块第53-55页
     ·FETCH模块第55-56页
     ·UPDATE模块第56-57页
   ·分布式爬虫的功能完善第57-60页
第四章 分布式爬虫的具体实现第60-72页
   ·总数据结构的设计第60-61页
   ·数据格式信息第61-64页
     ·URL状态信息第61-62页
     ·原始网页库第62页
     ·未抓取URL库第62-63页
     ·周期更新URL库第63页
     ·超时URL库第63页
     ·解析网页库第63-64页
   ·各分模块数据结构的设计第64-72页
     ·主类:CRAWL2和RECRAWL2第65-66页
     ·流程重组相关类:FROMFETCHCRAWL2、FROMUPDATECRAWL2、第66页
     ·更新抓取初始化类:UPDATECRAWLDBINIT第66-67页
     ·功能类第67-69页
     ·辅助功能类第69-72页
第五章 系统相关测试第72-84页
   ·软件和硬件环境第72-75页
     ·硬件/软件环境第72页
     ·软件环境搭建第72-73页
     ·可调参数设置第73-74页
     ·系统查看命令第74-75页
   ·系统测试第75-76页
     ·功能测试第75页
     ·可扩展性测试第75-76页
     ·性能测试第76页
   ·测试结果分析第76-81页
     ·测试数据第77-79页
     ·测试结果分析第79-81页
   ·测试总结第81-84页
第六章 总结与展望第84-86页
   ·工作总结第84页
   ·下一步的研究工作第84-86页
参考文献第86-88页
术语缩略语第88-89页
致谢第89-90页
作者攻读硕士学位期间发表的学术论文目录第90页

论文共90页,点击 下载论文
上一篇:基于WebGIS的外来入侵物种数据库管理系统的研究
下一篇:一个分布式自动化测试平台的分析与设计