首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于分布式计算的网络爬虫技术研究

摘要第1-6页
ABSTRACT第6-10页
第1章 绪论第10-15页
   ·课题的研究背景第10-11页
   ·课题的研究现状及意义第11-13页
     ·研究现状第11-12页
     ·课题意义第12-13页
   ·论文结构第13-15页
第2章 网络爬虫与分布式系统理论研究第15-35页
   ·搜索引擎技术原理概要第15-17页
     ·搜索引擎的结构第15-16页
     ·搜索引擎的评价标准第16-17页
   ·网络爬虫技术原理第17-22页
     ·网络爬虫的物理结构第17页
     ·网络爬虫的基本结构第17-22页
   ·分布式系统基础第22-24页
     ·什么是分布式系统第22页
     ·分布式系统的优缺点第22-23页
     ·分布式系统的结构第23-24页
   ·Hadoop分布式平台第24-35页
     ·分布式文件系统HDFS第25-29页
     ·MapReduce分布式计算模型第29-32页
     ·Hadoop中的MapReduce编程架构第32-35页
第3章 分布式网络爬虫设计方案第35-44页
   ·分布式网络爬虫架构设计第35-38页
     ·从单线程网络爬虫到分布式网络爬虫的进化第35页
     ·分布式网络爬虫结构设计第35-38页
   ·分布式网络爬虫模块设计第38-44页
     ·URL初始化功能模块化设计第38-39页
     ·并行循环抓取功能模块化设计第39-44页
第4章 分布式网络爬虫技术实现第44-61页
   ·分布式网络爬虫MapReduce设计第44-59页
     ·种子URL插入MapReduce实现第46-49页
     ·URL任务列表生成模块MapReduce实现第49-52页
     ·网页抓取模块实现第52-56页
     ·数据更新模块实现流程第56-59页
   ·HDFS数据存储设计第59-61页
第5章 测试系统设计与测试结果第61-69页
   ·Hadoop集群搭建第61-64页
     ·Hadoop分布式集群布局第62页
     ·Hadoop分布式集群配置第62-64页
   ·系统测试方案第64-66页
     ·系统功能测试方案第65页
     ·系统性能测试方案第65-66页
     ·系统可扩展性测试方案第66页
   ·测试数据及其分析第66-69页
     ·系统功能测试结果第67页
     ·系统性能测试结果第67页
     ·系统可扩展性测试结果第67-69页
结论第69-71页
参考文献第71-73页
致谢第73-74页
研究生履历第74页

论文共74页,点击 下载论文
上一篇:运动目标分割算法的研究及其嵌入式系统实现
下一篇:船舶票务系统的设计与实现