致谢 | 第1-5页 |
摘要 | 第5-6页 |
ABSTRACT | 第6-10页 |
1 引言 | 第10-14页 |
·研究背景和意义 | 第10-11页 |
·国内外研究现状 | 第11-12页 |
·论文的组织结构 | 第12-14页 |
2 Web挖掘技术概述 | 第14-24页 |
·Web挖掘的分类 | 第14-16页 |
·Web内容挖掘 | 第15页 |
·Web使用记录挖掘 | 第15页 |
·Web结构挖掘 | 第15-16页 |
·Web结构挖掘 | 第16-18页 |
·Web图概念 | 第16-17页 |
·链接关系表示方法 | 第17-18页 |
·PageRank算法简介 | 第18-24页 |
·算法思想 | 第18-19页 |
·算法分析 | 第19-21页 |
·收敛性评估 | 第21-22页 |
·Pagerank算法的不足和改进 | 第22-24页 |
3 云计算与MapReduce编程模型 | 第24-38页 |
·计算介绍 | 第24-26页 |
·技术背景 | 第24页 |
·计算概念 | 第24-26页 |
·计算的实现机制 | 第26页 |
·MapReduce技术介绍 | 第26-30页 |
·概念 | 第26-27页 |
·编程原理 | 第27-28页 |
·实现 | 第28-30页 |
·适用条件 | 第30页 |
·Hadoop分布式开源框架 | 第30-33页 |
·概述 | 第30-31页 |
·Hadoop分布式文件系统HDFS | 第31-33页 |
·Hadoop下Mapreduce的执行原理 | 第33-38页 |
·概述 | 第33-34页 |
·输入与输出 | 第34页 |
·Hadoop-MapReduce的工作流程 | 第34-35页 |
·Hadoop执行中的性能瓶颈 | 第35页 |
·Hadoop-MapReduce的任务调度 | 第35-38页 |
4 基于Mapreduce的pagerank算法研究 | 第38-54页 |
·算法的来源 | 第38页 |
·基于Mapreduce的Pagerank算法 | 第38-43页 |
·算法数据准备 | 第39-40页 |
·算法实现 | 第40-42页 |
·算法存在的问题和改进 | 第42-43页 |
·利用矩阵分块思想的并行Pagerank算法 | 第43-47页 |
·矩阵分块原理 | 第43页 |
·Web数据集预处理和划分数据块 | 第43-45页 |
·分块算法执行 | 第45-47页 |
·低迭代并行pagerank改进算法 | 第47-54页 |
·算法分析 | 第47-48页 |
·算法实现过程 | 第48-52页 |
·算法的比较和扩展 | 第52-54页 |
5 实验分析 | 第54-62页 |
·实验数据集 | 第54页 |
·实验平台搭建 | 第54-56页 |
·硬件实验平台 | 第54-55页 |
·Hadoop在集群上配置 | 第55页 |
·Hadoop关键配置项 | 第55-56页 |
·Hadoop下设计Mapreduce的算法 | 第56-57页 |
·在hadoop集群上运行pagerank算法 | 第57-58页 |
·实验结果分析 | 第58-62页 |
·MapReduce并行规模对作业执行时间的影响 | 第58-59页 |
·分析Mapreduce下各pagerank算法时空消耗 | 第59-62页 |
6 结论与展望 | 第62-64页 |
·本文工作总结 | 第62-63页 |
·展望 | 第63-64页 |
参考文献 | 第64-66页 |
作者简历 | 第66-68页 |
学位论文数据集 | 第68页 |