首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

并行网络爬虫设计与实现

论文摘要第1-7页
Abstract第7-9页
第1章 绪论第9-14页
 (一) 项目背景第9-10页
 (二) 搜索引擎的市场及学术研究概况第10-12页
 (三) 研究目标及意义第12-13页
 (四) 文章结构第13-14页
第2章 网页获取相关技术第14-26页
 (一) URL地址格式第14页
 (二) HTTP协议第14-17页
 (三) HTML的解析第17-18页
 (四) HTTPCLIENT第18-20页
 (五) URL消重第20-22页
 (六) DNS缓冲策略第22-25页
 (七) 页面爬行策略第25-26页
第3章 并行计算技术第26-30页
 (一) MAP/REDUCE计算模型第26-27页
 (二) MAP/REDUCE实现第27-30页
第4章 并行网络爬虫系统的设计与实现第30-46页
 (一) 并行爬虫的设计第30页
 (二) MASTER模块的设计第30-34页
 (三) WORKER模块的设计第34-41页
 (四) DNS缓冲结构的设计第41-42页
 (五) 并行网络爬虫的实现第42-46页
第5章 系统测试第46-51页
 (一) URL消重算法测试第46-48页
 (二) 并行爬虫系统测试第48-51页
第6章 总结与展望第51-52页
参考文献第52-55页
攻读学位期间发表的学术论文第55-56页
致谢第56-57页

论文共57页,点击 下载论文
上一篇:基于动态纹理区域识别的增强现实关键技术研究
下一篇:心电图常见疾病的统计模式识别分类方法的应用研究