| 致谢 | 第1-5页 |
| 摘要 | 第5-6页 |
| ABSTRACT | 第6-10页 |
| 1 引言 | 第10-14页 |
| ·研究背景和意义 | 第10-11页 |
| ·国内外研究现状 | 第11-12页 |
| ·论文的组织结构 | 第12-14页 |
| 2 Web挖掘技术概述 | 第14-24页 |
| ·Web挖掘的分类 | 第14-16页 |
| ·Web内容挖掘 | 第15页 |
| ·Web使用记录挖掘 | 第15页 |
| ·Web结构挖掘 | 第15-16页 |
| ·Web结构挖掘 | 第16-18页 |
| ·Web图概念 | 第16-17页 |
| ·链接关系表示方法 | 第17-18页 |
| ·PageRank算法简介 | 第18-24页 |
| ·算法思想 | 第18-19页 |
| ·算法分析 | 第19-21页 |
| ·收敛性评估 | 第21-22页 |
| ·Pagerank算法的不足和改进 | 第22-24页 |
| 3 云计算与MapReduce编程模型 | 第24-38页 |
| ·计算介绍 | 第24-26页 |
| ·技术背景 | 第24页 |
| ·计算概念 | 第24-26页 |
| ·计算的实现机制 | 第26页 |
| ·MapReduce技术介绍 | 第26-30页 |
| ·概念 | 第26-27页 |
| ·编程原理 | 第27-28页 |
| ·实现 | 第28-30页 |
| ·适用条件 | 第30页 |
| ·Hadoop分布式开源框架 | 第30-33页 |
| ·概述 | 第30-31页 |
| ·Hadoop分布式文件系统HDFS | 第31-33页 |
| ·Hadoop下Mapreduce的执行原理 | 第33-38页 |
| ·概述 | 第33-34页 |
| ·输入与输出 | 第34页 |
| ·Hadoop-MapReduce的工作流程 | 第34-35页 |
| ·Hadoop执行中的性能瓶颈 | 第35页 |
| ·Hadoop-MapReduce的任务调度 | 第35-38页 |
| 4 基于Mapreduce的pagerank算法研究 | 第38-54页 |
| ·算法的来源 | 第38页 |
| ·基于Mapreduce的Pagerank算法 | 第38-43页 |
| ·算法数据准备 | 第39-40页 |
| ·算法实现 | 第40-42页 |
| ·算法存在的问题和改进 | 第42-43页 |
| ·利用矩阵分块思想的并行Pagerank算法 | 第43-47页 |
| ·矩阵分块原理 | 第43页 |
| ·Web数据集预处理和划分数据块 | 第43-45页 |
| ·分块算法执行 | 第45-47页 |
| ·低迭代并行pagerank改进算法 | 第47-54页 |
| ·算法分析 | 第47-48页 |
| ·算法实现过程 | 第48-52页 |
| ·算法的比较和扩展 | 第52-54页 |
| 5 实验分析 | 第54-62页 |
| ·实验数据集 | 第54页 |
| ·实验平台搭建 | 第54-56页 |
| ·硬件实验平台 | 第54-55页 |
| ·Hadoop在集群上配置 | 第55页 |
| ·Hadoop关键配置项 | 第55-56页 |
| ·Hadoop下设计Mapreduce的算法 | 第56-57页 |
| ·在hadoop集群上运行pagerank算法 | 第57-58页 |
| ·实验结果分析 | 第58-62页 |
| ·MapReduce并行规模对作业执行时间的影响 | 第58-59页 |
| ·分析Mapreduce下各pagerank算法时空消耗 | 第59-62页 |
| 6 结论与展望 | 第62-64页 |
| ·本文工作总结 | 第62-63页 |
| ·展望 | 第63-64页 |
| 参考文献 | 第64-66页 |
| 作者简历 | 第66-68页 |
| 学位论文数据集 | 第68页 |