应用于海量数据处理分析的云计算平台搭建研究

摘要	第1-5页
ABSTRACT	第5-8页
1 绪论	第8-10页
·论文研究背景	第8-9页
·主要研究内容	第9页
·论文研究目标	第9-10页
2 云计算系统关键技术	第10-16页
·计算系统模型简介	第10-14页
·Google文件系统GFS	第10-12页
·IBM的蓝云	第12-13页
·Apache的Hadoop	第13-14页
·分布式系统基本算法	第14-16页
·存储算法Bigtable	第14页
·MapReduce算法	第14-16页
3 Hadoop的整体架构	第16-22页
·Hadoop分布式文件系统(HDFS)	第16-18页
·NameNode和DataNode	第17页
·命名空间	第17页
·数据复制	第17-18页
·通信协议	第18页
·空间回收	第18页
·MapReduce并行编程模型	第18-22页
·映射	第18-19页
·混合	第19页
·归约	第19-20页
·MapReduce执行流程	第20-22页
4 海量数据搜索模型设计	第22-28页
·模型总体结构	第22-23页
·子系统设计	第23-25页
·分布式爬行子系统的设计	第23-24页
·分布式索引子系统的设计	第24-25页
·分布式查询子系统的设计	第25页
·模型执行流程	第25-28页
·爬行流程	第25-26页
·索引流程	第26-27页
·查询流程	第27-28页
5 海量数据搜索模型实现	第28-38页
·分布式爬行子系统的实现	第28-33页
·主要模块	第28页
·URL选择与分割模块	第28页
·网页获取模块	第28-29页
·网页解析模块	第29-31页
·链接过滤模块	第31-32页
·数据存储模块	第32-33页
·分布式索引子系统的实现	第33-35页
·多格式文档统一处理模块	第33页
·中文分词模块	第33-34页
·分布式索引生成模块	第34-35页
·分布式查询子系统的实现	第35-38页
·分布式查询器模块	第36-38页
6 海量数据搜索模型测试与分析	第38-47页
·模型部署	第38-43页
·硬件配置	第38页
·软件环境	第38页
·软件部署	第38-42页
·启动Hadoop	第42-43页
·系统性能测试与分析	第43-47页
·文件读写测试	第43-44页
·检索功能测试	第44-45页
·系统分析	第45-47页
7 结论	第47-48页
8 展望	第48-49页
9 参考文献	第49-54页
10 攻读硕士学位期间发表的论文	第54-55页
11 致谢	第55页