摘要 | 第5-6页 |
Abstract | 第6-7页 |
第1章 绪论 | 第10-16页 |
1.1 课题研究背景 | 第10-12页 |
1.2 课题研究现状 | 第12-13页 |
1.3 课题研究内容及意义 | 第13-14页 |
1.4 论文组织结构 | 第14-16页 |
第2章 Hadoop分布式平台和Nutch框架分析 | 第16-28页 |
2.1 Hadoop分布式平台 | 第16-20页 |
2.1.1 Hadoop分布式文件系统 | 第17-18页 |
2.1.2 Map/Reduce分布式计算模型 | 第18-20页 |
2.2 Nutch框架 | 第20-28页 |
2.2.1 Nutch工作原理 | 第20-21页 |
2.2.2 Nutch工作流程 | 第21-25页 |
2.2.3 Nutch插件机制 | 第25-28页 |
第3章 网页去重算法和网页排序算法的研究与优化 | 第28-56页 |
3.1 网页去重算法优化 | 第28-47页 |
3.1.1 基于特征码的网页去重算法分析 | 第28-32页 |
3.1.2 中文网页去重算法分析 | 第32-37页 |
3.1.3 基于加权特征句抽取的网页去重算法设计 | 第37-47页 |
3.2 网页排序算法优化 | 第47-56页 |
3.2.1 基于网页内容的排序算法分析 | 第48-51页 |
3.2.2 基于网页链接结构的排序算法分析 | 第51-52页 |
3.2.3 基于文档指纹与页面重要性的PageRank算法设计 | 第52-56页 |
第4章 分布式爬虫系统设计与实现 | 第56-66页 |
4.1 网页去重模块分析 | 第56-60页 |
4.1.1 去重模块总体设计 | 第56-57页 |
4.1.2 去重过程的Map/Reduce实现 | 第57-60页 |
4.2 网页排序模块分析 | 第60-62页 |
4.2.1 排序模块总体设计 | 第60-61页 |
4.2.2 排序过程的Map/Reduce实现 | 第61-62页 |
4.3 中文分词的实现 | 第62-66页 |
第5章 实验及结果分析 | 第66-76页 |
5.1 实验环境搭载 | 第66-70页 |
5.1.1 Hadoop环境搭建 | 第66-69页 |
5.1.2 Nutch环境搭建 | 第69-70页 |
5.2 实验结果及分析 | 第70-75页 |
5.2.1 去重算法实验及分析 | 第71-74页 |
5.2.2 排序算法实验及分析 | 第74-75页 |
5.3 实验总结 | 第75-76页 |
第6章 总结与展望 | 第76-78页 |
6.1 本文总结 | 第76页 |
6.2 未来展望 | 第76-78页 |
参考文献 | 第78-84页 |
致谢 | 第84-86页 |
攻读硕士学位期间发表的论文 | 第86页 |