基于Hadoop海量日志文件的网站并发性能分析

摘要	第4-5页
Abstract	第5页
专用术语注释表	第8-9页
第一章绪论	第9-16页
1.1 课题研究背景及意义	第9-10页
1.1.1 研究背景	第9-10页
1.1.2 研究意义	第10页
1.2 课题的国内外研究现状	第10-14页
1.2.1 大数据	第10-11页
1.2.2 云计算平台体系	第11-13页
1.2.3 Hadoop 平台	第13-14页
1.3 论文研究的主要内容	第14-15页
1.4 论文结构	第15-16页
第二章海量数据相关技术	第16-27页
2.1 分布式系统关键技术	第16-21页
2.1.1 分布式计算	第16-17页
2.1.2 分布式文件系统	第17-19页
2.1.3 分布式存储系统	第19-21页
2.2 海量数据处理模型	第21-26页
2.2.1 Google File System	第22-23页
2.2.2 IBM Blue Cloud	第23页
2.2.3 Amazon Web Services	第23-24页
2.2.4 Memcached	第24-25页
2.2.5 Hadoop of Apache	第25-26页
2.3 本章小结	第26-27页
第三章 Hadoop 平台的设计架构	第27-38页
3.1 Hadoop 平台的构造模块	第27-29页
3.1.1 NameNode	第28页
3.1.2 DataNode	第28页
3.1.3 Secondary NameNode	第28页
3.1.4 JobTracker	第28-29页
3.1.5 TaskTracker	第29页
3.2 Hadoop 的分布式文件系统 HDFS	第29-32页
3.2.1 体系结构	第29-30页
3.2.2 设计前提及目标	第30-31页
3.2.3 可靠性措施	第31-32页
3.3 MapReduce 并行编程模型	第32-37页
3.3.1 Map 阶段	第33-34页
3.3.2 Shuffle 阶段	第34-37页
3.3.3 Reduce 阶段	第37页
3.4 本章小结	第37-38页
第四章基于 Hadoop 海量日志文件处理的设计	第38-51页
4.1 海量日志文件处理的需求目标	第38-41页
4.1.1 网站分析指标	第38-39页
4.1.2 网站并发问题描述	第39-40页
4.1.3 日志格式分析	第40页
4.1.4 日志处理具体需求	第40-41页
4.2 程序设计思想	第41-47页
4.2.1 设计流程图	第41-43页
4.2.2 流程分析	第43-45页
4.2.3 调度机制	第45-46页
4.2.4 容错机制	第46-47页
4.3 程序详细设计	第47-50页
4.3.1 格式解析	第47-48页
4.3.2 时间汇总	第48-49页
4.3.3 平均时间排序	第49-50页
4.4 本章小结	第50-51页
第五章实验测试与数据分析	第51-63页
5.1 实验环境需求	第51-52页
5.1.1 硬件环境	第51-52页
5.1.2 软件环境	第52页
5.2 实验集群配置	第52-56页
5.2.1 SSH 无口令验证配置	第52-53页
5.2.2 伪分布模式配置	第53-55页
5.2.3 全分布模式配置	第55-56页
5.3 实验结果与分析	第56-62页
5.3.1 传统处理方法与本次设计对比分析	第56-57页
5.3.2 不同数据节点测试结果分析	第57-60页
5.3.3 算法健壮性实验分析	第60-61页
5.3.4 网站并发性能分析	第61-62页
5.4 本章小结	第62-63页
第六章总结与展望	第63-65页
6.1 研究总结	第63-64页
6.2 未来的研究展望	第64-65页
参考文献	第65-67页
附录攻读硕士学位期间撰写的论文	第67-68页
致谢	第68页