基于云计算的Web结构挖掘算法研究

致谢	第1-5页
摘要	第5-6页
ABSTRACT	第6-10页
1 引言	第10-14页
·研究背景和意义	第10-11页
·国内外研究现状	第11-12页
·论文的组织结构	第12-14页
2 Web挖掘技术概述	第14-24页
·Web挖掘的分类	第14-16页
·Web内容挖掘	第15页
·Web使用记录挖掘	第15页
·Web结构挖掘	第15-16页
·Web结构挖掘	第16-18页
·Web图概念	第16-17页
·链接关系表示方法	第17-18页
·PageRank算法简介	第18-24页
·算法思想	第18-19页
·算法分析	第19-21页
·收敛性评估	第21-22页
·Pagerank算法的不足和改进	第22-24页
3 云计算与MapReduce编程模型	第24-38页
·计算介绍	第24-26页
·技术背景	第24页
·计算概念	第24-26页
·计算的实现机制	第26页
·MapReduce技术介绍	第26-30页
·概念	第26-27页
·编程原理	第27-28页
·实现	第28-30页
·适用条件	第30页
·Hadoop分布式开源框架	第30-33页
·概述	第30-31页
·Hadoop分布式文件系统HDFS	第31-33页
·Hadoop下Mapreduce的执行原理	第33-38页
·概述	第33-34页
·输入与输出	第34页
·Hadoop-MapReduce的工作流程	第34-35页
·Hadoop执行中的性能瓶颈	第35页
·Hadoop-MapReduce的任务调度	第35-38页
4 基于Mapreduce的pagerank算法研究	第38-54页
·算法的来源	第38页
·基于Mapreduce的Pagerank算法	第38-43页
·算法数据准备	第39-40页
·算法实现	第40-42页
·算法存在的问题和改进	第42-43页
·利用矩阵分块思想的并行Pagerank算法	第43-47页
·矩阵分块原理	第43页
·Web数据集预处理和划分数据块	第43-45页
·分块算法执行	第45-47页
·低迭代并行pagerank改进算法	第47-54页
·算法分析	第47-48页
·算法实现过程	第48-52页
·算法的比较和扩展	第52-54页
5 实验分析	第54-62页
·实验数据集	第54页
·实验平台搭建	第54-56页
·硬件实验平台	第54-55页
·Hadoop在集群上配置	第55页
·Hadoop关键配置项	第55-56页
·Hadoop下设计Mapreduce的算法	第56-57页
·在hadoop集群上运行pagerank算法	第57-58页
·实验结果分析	第58-62页
·MapReduce并行规模对作业执行时间的影响	第58-59页
·分析Mapreduce下各pagerank算法时空消耗	第59-62页
6 结论与展望	第62-64页
·本文工作总结	第62-63页
·展望	第63-64页
参考文献	第64-66页
作者简历	第66-68页
学位论文数据集	第68页