基于分布式计算的网络爬虫技术研究
摘要 | 第1-6页 |
ABSTRACT | 第6-10页 |
第1章 绪论 | 第10-15页 |
·课题的研究背景 | 第10-11页 |
·课题的研究现状及意义 | 第11-13页 |
·研究现状 | 第11-12页 |
·课题意义 | 第12-13页 |
·论文结构 | 第13-15页 |
第2章 网络爬虫与分布式系统理论研究 | 第15-35页 |
·搜索引擎技术原理概要 | 第15-17页 |
·搜索引擎的结构 | 第15-16页 |
·搜索引擎的评价标准 | 第16-17页 |
·网络爬虫技术原理 | 第17-22页 |
·网络爬虫的物理结构 | 第17页 |
·网络爬虫的基本结构 | 第17-22页 |
·分布式系统基础 | 第22-24页 |
·什么是分布式系统 | 第22页 |
·分布式系统的优缺点 | 第22-23页 |
·分布式系统的结构 | 第23-24页 |
·Hadoop分布式平台 | 第24-35页 |
·分布式文件系统HDFS | 第25-29页 |
·MapReduce分布式计算模型 | 第29-32页 |
·Hadoop中的MapReduce编程架构 | 第32-35页 |
第3章 分布式网络爬虫设计方案 | 第35-44页 |
·分布式网络爬虫架构设计 | 第35-38页 |
·从单线程网络爬虫到分布式网络爬虫的进化 | 第35页 |
·分布式网络爬虫结构设计 | 第35-38页 |
·分布式网络爬虫模块设计 | 第38-44页 |
·URL初始化功能模块化设计 | 第38-39页 |
·并行循环抓取功能模块化设计 | 第39-44页 |
第4章 分布式网络爬虫技术实现 | 第44-61页 |
·分布式网络爬虫MapReduce设计 | 第44-59页 |
·种子URL插入MapReduce实现 | 第46-49页 |
·URL任务列表生成模块MapReduce实现 | 第49-52页 |
·网页抓取模块实现 | 第52-56页 |
·数据更新模块实现流程 | 第56-59页 |
·HDFS数据存储设计 | 第59-61页 |
第5章 测试系统设计与测试结果 | 第61-69页 |
·Hadoop集群搭建 | 第61-64页 |
·Hadoop分布式集群布局 | 第62页 |
·Hadoop分布式集群配置 | 第62-64页 |
·系统测试方案 | 第64-66页 |
·系统功能测试方案 | 第65页 |
·系统性能测试方案 | 第65-66页 |
·系统可扩展性测试方案 | 第66页 |
·测试数据及其分析 | 第66-69页 |
·系统功能测试结果 | 第67页 |
·系统性能测试结果 | 第67页 |
·系统可扩展性测试结果 | 第67-69页 |
结论 | 第69-71页 |
参考文献 | 第71-73页 |
致谢 | 第73-74页 |
研究生履历 | 第74页 |