首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于hadoop的分布式网络爬虫研究与实现

摘要第1-4页
Abstract第4-7页
第一章 绪论第7-13页
   ·课题研究背景和意义第7-9页
   ·国内外研究现状第9页
   ·论文主要工作第9-10页
   ·论文结构第10-13页
第二章 相关理论与技术第13-27页
   ·云计算相关知识第13-16页
     ·云计算原理与结构第13-15页
     ·典型云计算的平台第15-16页
   ·Hadoop 分布式平台技术第16-21页
     ·HDFS 分布式文件系统第17-19页
     ·Map/Reduce 分布式计算模型第19-21页
   ·网络爬虫原理第21-23页
     ·网络爬虫系统的基本结构第22-23页
     ·分布式网络爬虫第23页
   ·相关工具软件第23-24页
     ·HttpClient第23-24页
     ·HTMLParser第24页
     ·Log4j第24页
     ·Cygwin第24页
   ·本章小结第24-27页
第三章 系统分析与设计第27-39页
   ·分布式网络爬虫的设计需求第27-28页
   ·分布式网络爬虫关键技术分析第28-31页
     ·DNS 解析扩展第28-29页
     ·URL 消重技术第29-30页
     ·页面爬行策略第30-31页
   ·系统布局第31-33页
     ·分布式搜索引擎的系统架构第31-32页
     ·分布式搜索引擎的模块划分第32-33页
   ·分布式网络爬虫框架结构设计第33-37页
     ·分布式网络爬虫的物理框架设计第33-34页
     ·分布式网络爬虫的逻辑框架设计第34-35页
     ·爬虫的基本流程和模块设计第35-37页
   ·本章小结第37-39页
第四章 分布式爬虫实现第39-51页
   ·存储结构的实现第39-40页
   ·爬虫总体设计结构第40-41页
   ·各功能模块的实现第41-49页
     ·URL 分割注入模块第41-42页
     ·网页获取模块第42-43页
     ·网页解析模块第43-46页
     ·链接去重过滤模块第46-48页
     ·数据存储更新模块第48-49页
   ·本章小结第49-51页
第五章 性能分析与评价第51-57页
   ·测试环境第51-52页
     ·软硬件环境第51页
     ·分布式开发环境的搭建第51-52页
   ·系统测试方案第52-54页
     ·功能测试方案第53页
     ·性能测试方案第53-54页
     ·系统可扩展性测试方案第54页
   ·系统测试结果分析第54-56页
     ·系统功能测试结果第54页
     ·系统性能测试结果第54-55页
     ·系统可扩展性测试结果第55-56页
   ·本章小结第56-57页
第六章 总结与展望第57-59页
   ·论文总结第57页
   ·研究展望第57-59页
致谢第59-61页
参考文献第61-65页
读研期间研究成果第65-66页

论文共66页,点击 下载论文
上一篇:语义wiki的标注方法及其知识库构建
下一篇:基于叶片形状特征的植物识别技术研究