基于URL及上下文的并行分块处理主题爬虫研究

摘要	第5-6页
Abstract	第6页
第一章引言	第7-19页
1.1 研究目的与意义	第7-8页
1.2 研究背景	第8-9页
1.3 国内外研究现状	第9-19页
1.3.1 基于关键词的主题爬虫	第9-11页
1.3.2 基于网页内容的主题爬虫	第11-13页
1.3.3 基于链接特征的主题爬虫	第13-16页
1.3.4 基于其他算法的主题爬虫	第16-17页
1.3.5 主题孤岛问题	第17-18页
1.3.6 隧道技术	第18-19页
第二章 HADOOP分布式平台与NUTCH概述	第19-28页
2.1 Hadoop分布式平台	第19-25页
2.1.1 总体架构	第19-20页
2.1.2 MapReduce分布式计算	第20-22页
2.1.3 HDFS分布式文件系统	第22-25页
2.2 Nutch开源搜索引擎	第25-28页
2.2.1 爬虫模块	第26页
2.2.2 插件机制	第26-28页
第三章基于URL及上下文并行分块处理的主题爬虫	第28-42页
3.1 系统架构与流程	第28-30页
3.2 主题描述词概括与扩展	第30-31页
3.3 基于URL及上下文的分块处理主题相关度分析	第31-39页
3.3.1 基于分块的并行处理	第32-33页
3.3.2 URL与上下文的分析	第33-39页
3.4 孤岛问题的解决	第39-42页
第四章基于URL及上下文的并行分块处理主题爬虫实现	第42-55页
4.1 初始化模块	第42-44页
4.2 待抓取列表生成模块	第44-46页
4.3 页面爬行模块	第46-49页
4.4 主题相关度分析模块	第49-52页
4.5 待爬行URL列表更新模块	第52-53页
4.6 存储数据结构	第53-55页
第五章性能分析与比较	第55-70页
5.1 试验环境	第55-58页
5.1.1 软件硬件环境	第55页
5.1.2 试验平台搭建	第55-57页
5.1.3 实验数据	第57-58页
5.2 系统测试	第58-70页
5.2.1 性能测试	第58-61页
5.2.2 可调参数设置	第61-70页
第六章总结与展望	第70-72页
6.1 本文工作总结	第70-71页
6.2 未来工作展望	第71-72页
参考文献	第72-75页
致谢	第75-76页
攻读硕士期间发表的论文	第76-77页