摘要 | 第5-6页 |
Abstract | 第6-7页 |
目录 | 第8-11页 |
第1章 绪论 | 第11-15页 |
1.1 课题的研究背景 | 第11页 |
1.2 国内外研究现状 | 第11-13页 |
1.3 本文的研究内容和组织结构 | 第13-15页 |
第2章 相关技术 | 第15-27页 |
2.1 云计算 | 第15-16页 |
2.2 Heritrix爬虫 | 第16-18页 |
2.3 HDFS | 第18-20页 |
2.4 MapReduce编程模型 | 第20-22页 |
2.5 PageRank计算模型 | 第22-23页 |
2.6 图数据可视化软件prefuse简介 | 第23-24页 |
2.7 Hama介绍 | 第24-26页 |
2.8 本章小结 | 第26-27页 |
第3章 系统的体系结构 | 第27-31页 |
3.1 系统的需求设计 | 第27-28页 |
3.1.1 系统需求概述 | 第27页 |
3.1.2 功能需求 | 第27-28页 |
3.1.3 性能需求 | 第28页 |
3.2 系统的总体设计 | 第28-30页 |
3.3 本章小结 | 第30-31页 |
第4章 数据爬取与数据预处理 | 第31-43页 |
4.1 HERITRIX抓取URL | 第31-33页 |
4.1.1 抓取原理 | 第31页 |
4.1.2 抓取流程分析 | 第31-33页 |
4.2 节点编号及初始PageRank生成 | 第33-35页 |
4.2.1 节点编号背景 | 第33页 |
4.2.2 节点编号的算法设计 | 第33-34页 |
4.2.3 实验结果 | 第34-35页 |
4.3 基于顶点编号的图邻接表生成 | 第35-42页 |
4.3.1 图邻接表 | 第35-36页 |
4.3.2 图邻接表产生算法 | 第36-39页 |
4.3.3 实验结果展示 | 第39-40页 |
4.3.4 类型图邻接表算法 | 第40-42页 |
4.4 本章小结 | 第42-43页 |
第5章 PAGERANK计算 | 第43-63页 |
5.1 PageRank计算相关背景 | 第43-45页 |
5.1.1 PageRank计算公式 | 第43-44页 |
5.1.2 计算PageRank的方法 | 第44-45页 |
5.2 朴素的计算PageRank算法NativePR | 第45-50页 |
5.3 一次迭代一个Job计算PageRank算法OIOJ-PR | 第50-51页 |
5.4 基于子图划分计算PageRank算法SGPB-PR | 第51-54页 |
5.5 实验结果显示 | 第54页 |
5.6 网页排序 | 第54-56页 |
5.7 网页连接图可视化 | 第56-61页 |
5.7.1 数据加载及格式转化 | 第57-58页 |
5.7.2 prefuse可视化显示图的原理 | 第58-59页 |
5.7.3 图数据的局部显示 | 第59-60页 |
5.7.4 缓存更新 | 第60页 |
5.7.5 prefuse作图结果 | 第60-61页 |
5.8 本章小结 | 第61-63页 |
第6章 系统部署及性能评估 | 第63-69页 |
6.1 系统部署环境要求 | 第63页 |
6.2 系统配置和启动 | 第63-64页 |
6.3 运行PageRank程序 | 第64页 |
6.4 PageRank程序结果分析 | 第64-68页 |
6.5 本章小结 | 第68-69页 |
第7章 结束语 | 第69-71页 |
7.1 本文总结 | 第69页 |
7.2 进一步工作以及展望 | 第69-71页 |
参考文献 | 第71-75页 |
致谢 | 第75-77页 |
攻读硕士期间参加的项目和发表的论文 | 第77页 |