| 摘要 | 第5-6页 |
| Abstract | 第6-7页 |
| 第1章 绪论 | 第10-16页 |
| 1.1 课题研究背景 | 第10-12页 |
| 1.2 课题研究现状 | 第12-13页 |
| 1.3 课题研究内容及意义 | 第13-14页 |
| 1.4 论文组织结构 | 第14-16页 |
| 第2章 Hadoop分布式平台和Nutch框架分析 | 第16-28页 |
| 2.1 Hadoop分布式平台 | 第16-20页 |
| 2.1.1 Hadoop分布式文件系统 | 第17-18页 |
| 2.1.2 Map/Reduce分布式计算模型 | 第18-20页 |
| 2.2 Nutch框架 | 第20-28页 |
| 2.2.1 Nutch工作原理 | 第20-21页 |
| 2.2.2 Nutch工作流程 | 第21-25页 |
| 2.2.3 Nutch插件机制 | 第25-28页 |
| 第3章 网页去重算法和网页排序算法的研究与优化 | 第28-56页 |
| 3.1 网页去重算法优化 | 第28-47页 |
| 3.1.1 基于特征码的网页去重算法分析 | 第28-32页 |
| 3.1.2 中文网页去重算法分析 | 第32-37页 |
| 3.1.3 基于加权特征句抽取的网页去重算法设计 | 第37-47页 |
| 3.2 网页排序算法优化 | 第47-56页 |
| 3.2.1 基于网页内容的排序算法分析 | 第48-51页 |
| 3.2.2 基于网页链接结构的排序算法分析 | 第51-52页 |
| 3.2.3 基于文档指纹与页面重要性的PageRank算法设计 | 第52-56页 |
| 第4章 分布式爬虫系统设计与实现 | 第56-66页 |
| 4.1 网页去重模块分析 | 第56-60页 |
| 4.1.1 去重模块总体设计 | 第56-57页 |
| 4.1.2 去重过程的Map/Reduce实现 | 第57-60页 |
| 4.2 网页排序模块分析 | 第60-62页 |
| 4.2.1 排序模块总体设计 | 第60-61页 |
| 4.2.2 排序过程的Map/Reduce实现 | 第61-62页 |
| 4.3 中文分词的实现 | 第62-66页 |
| 第5章 实验及结果分析 | 第66-76页 |
| 5.1 实验环境搭载 | 第66-70页 |
| 5.1.1 Hadoop环境搭建 | 第66-69页 |
| 5.1.2 Nutch环境搭建 | 第69-70页 |
| 5.2 实验结果及分析 | 第70-75页 |
| 5.2.1 去重算法实验及分析 | 第71-74页 |
| 5.2.2 排序算法实验及分析 | 第74-75页 |
| 5.3 实验总结 | 第75-76页 |
| 第6章 总结与展望 | 第76-78页 |
| 6.1 本文总结 | 第76页 |
| 6.2 未来展望 | 第76-78页 |
| 参考文献 | 第78-84页 |
| 致谢 | 第84-86页 |
| 攻读硕士学位期间发表的论文 | 第86页 |