摘要 | 第1-8页 |
Abstract | 第8-12页 |
第1章 绪论 | 第12-22页 |
·课题研究背景及意义 | 第12-13页 |
·分布式搜索引擎国内外研究现状 | 第13-20页 |
·搜索引擎的发展历史 | 第13-15页 |
·分布式搜索引擎的研究发展现状 | 第15-16页 |
·MapReduce编程模型的研究发展现状 | 第16-18页 |
·主题爬虫的研究发展现状 | 第18-20页 |
·论文的主要研究内容和组织结构安排 | 第20-22页 |
·论文的主要研究内容 | 第20页 |
·论文的组织结构与安排 | 第20-22页 |
第2章 分布式搜索引擎相关技术与理论知识 | 第22-35页 |
·分布式搜索引擎的工作原理与体系结构 | 第22-23页 |
·分布式搜索引擎的工作原理 | 第22-23页 |
·分布式计算技术 | 第23-29页 |
·分布式计算的工作原理 | 第24页 |
·MapReduce编程模型 | 第24-25页 |
·Hadoop平台简介 | 第25-26页 |
·Hadoop分布式文件系统 | 第26-27页 |
·Hadoop的MapReduce实现机制 | 第27-29页 |
·网页排序算法 | 第29-31页 |
·PageRank算法 | 第29-30页 |
·PageRank算法存在的问题 | 第30-31页 |
·主题爬虫技术 | 第31-34页 |
·主题爬虫的工作原理 | 第31-32页 |
·主题网络爬虫的结构 | 第32-33页 |
·主题爬虫的搜索策略 | 第33-34页 |
·本章小结 | 第34-35页 |
第3章 MapReduce框架优化设计 | 第35-51页 |
·单一控制节点所产生的问题 | 第35-36页 |
·基于多控制节点的MapReduce框架 | 第36-39页 |
·多NameNode环形控制结构的设计 | 第36-37页 |
·信令系统的改进 | 第37-38页 |
·NameNode控制节点的备份 | 第38-39页 |
·MapReduce模型中间数据处理流程的优化 | 第39-43页 |
·MapReduce任务分配出现的问题 | 第40页 |
·MapReducc模型系统架构的优化 | 第40-41页 |
·狄克逊准则与平衡策略 | 第41-43页 |
·NMapReduce模型处理流程描述 | 第43页 |
·实验及结果分析 | 第43-49页 |
·实验平台 | 第43页 |
·实验环境的安装与配置 | 第43-46页 |
·实验方案的设计 | 第46-48页 |
·实验结果的分析 | 第48-49页 |
·本章小结 | 第49-51页 |
第4章 PageRank算法的优化 | 第51-61页 |
·PageRank算法的改进 | 第51-52页 |
·基于MapReduce的PageRank算法的优化 | 第52-58页 |
·PageRank算法优化方面的研究 | 第53-54页 |
·基于块结构划分方法的计算流程 | 第54-58页 |
·实验及其结果分析 | 第58-60页 |
·实验参数的设定和数据集 | 第58页 |
·实验方案设计 | 第58-59页 |
·结果分析 | 第59-60页 |
·本章小结 | 第60-61页 |
第5章 基于Context Graph的主题爬虫策略优化 | 第61-70页 |
·基于Context Graph的主题爬行策略 | 第61-63页 |
·构建Context Graph模型 | 第61-62页 |
·训练层次分类器阶段 | 第62页 |
·指导爬行阶段 | 第62-63页 |
·基于词频差异特征选取的Context Graph算法改进 | 第63-67页 |
·基于词频差异的特征选取理论 | 第63-66页 |
·流程的改进 | 第66-67页 |
·实验结果与分析 | 第67-69页 |
·本章小结 | 第69-70页 |
结论与展望 | 第70-72页 |
参考文献 | 第72-77页 |
致谢 | 第77-78页 |
附录A 攻读硕士学位期间所发表的论文 | 第78页 |