摘要 | 第5-6页 |
Abstract | 第6页 |
第一章 引言 | 第7-19页 |
1.1 研究目的与意义 | 第7-8页 |
1.2 研究背景 | 第8-9页 |
1.3 国内外研究现状 | 第9-19页 |
1.3.1 基于关键词的主题爬虫 | 第9-11页 |
1.3.2 基于网页内容的主题爬虫 | 第11-13页 |
1.3.3 基于链接特征的主题爬虫 | 第13-16页 |
1.3.4 基于其他算法的主题爬虫 | 第16-17页 |
1.3.5 主题孤岛问题 | 第17-18页 |
1.3.6 隧道技术 | 第18-19页 |
第二章 HADOOP分布式平台与NUTCH概述 | 第19-28页 |
2.1 Hadoop分布式平台 | 第19-25页 |
2.1.1 总体架构 | 第19-20页 |
2.1.2 MapReduce分布式计算 | 第20-22页 |
2.1.3 HDFS分布式文件系统 | 第22-25页 |
2.2 Nutch开源搜索引擎 | 第25-28页 |
2.2.1 爬虫模块 | 第26页 |
2.2.2 插件机制 | 第26-28页 |
第三章 基于URL及上下文并行分块处理的主题爬虫 | 第28-42页 |
3.1 系统架构与流程 | 第28-30页 |
3.2 主题描述词概括与扩展 | 第30-31页 |
3.3 基于URL及上下文的分块处理主题相关度分析 | 第31-39页 |
3.3.1 基于分块的并行处理 | 第32-33页 |
3.3.2 URL与上下文的分析 | 第33-39页 |
3.4 孤岛问题的解决 | 第39-42页 |
第四章 基于URL及上下文的并行分块处理主题爬虫实现 | 第42-55页 |
4.1 初始化模块 | 第42-44页 |
4.2 待抓取列表生成模块 | 第44-46页 |
4.3 页面爬行模块 | 第46-49页 |
4.4 主题相关度分析模块 | 第49-52页 |
4.5 待爬行URL列表更新模块 | 第52-53页 |
4.6 存储数据结构 | 第53-55页 |
第五章 性能分析与比较 | 第55-70页 |
5.1 试验环境 | 第55-58页 |
5.1.1 软件硬件环境 | 第55页 |
5.1.2 试验平台搭建 | 第55-57页 |
5.1.3 实验数据 | 第57-58页 |
5.2 系统测试 | 第58-70页 |
5.2.1 性能测试 | 第58-61页 |
5.2.2 可调参数设置 | 第61-70页 |
第六章 总结与展望 | 第70-72页 |
6.1 本文工作总结 | 第70-71页 |
6.2 未来工作展望 | 第71-72页 |
参考文献 | 第72-75页 |
致谢 | 第75-76页 |
攻读硕士期间发表的论文 | 第76-77页 |