基于海量数据的文本分类算法的MapReduce实现研究

摘要	第5-6页
Abstract	第6-7页
第1章绪论	第10-27页
1.1 研究背景及意义	第10页
1.2 国内外研究现状	第10-13页
1.2.1 传统分类算法的国内外研究现状与总结	第10-12页
1.2.2 云平台上算法的国内外研究现状与总结	第12-13页
1.3 关键技术研究	第13-25页
1.3.1 分类算法	第13-17页
1.3.2 Hadoop平台	第17-22页
1.3.3 服务器虚拟化	第22-25页
1.4 研究目标及内容	第25-26页
1.5 论文组织结构	第26-27页
第2章 MapReduce程序	第27-34页
2.1 MapReduce综述	第27-30页
2.1.1 MapReduce思想	第27-28页
2.1.2 MapReduce实现机制	第28页
2.1.3 Shuffle过程	第28-29页
2.1.4 MapReduce实现流程	第29-30页
2.2 MapReduce应用案例	第30-33页
2.2.1 程序运行环境	第30页
2.2.2 程序运行过程	第30-32页
2.2.3 程序运行结果	第32-33页
2.3 本章小结	第33-34页
第3章贝叶斯算法的MapReduce实现研究	第34-45页
3.1 贝叶斯算法	第34-38页
3.1.1 贝叶斯算法概述	第34页
3.1.2 贝叶斯定理	第34-36页
3.1.3 贝叶斯应用案例	第36-37页
3.1.4 贝叶斯算法的类别	第37-38页
3.2 朴素贝叶斯算法的基本步骤	第38-40页
3.3 朴素贝叶斯算法的MapReduce化	第40-44页
3.4 本章小结	第44-45页
第4章实验验证	第45-60页
4.1 实验平台硬件环境部署	第45-48页
4.1.1 硬件和软件工具	第45页
4.1.2 硬件平台搭建过程	第45-47页
4.1.3 Xen的配置和启动	第47-48页
4.2 实验平台软件环境部署	第48-53页
4.2.1 Hadoop集群搭建	第48-51页
4.2.2 Starfish介绍和安装	第51页
4.2.3 Weka介绍和安装	第51-52页
4.2.4 Hadoop集群启动	第52-53页
4.3 实验设计与结果分析	第53-58页
4.3.1 单机与Hadoop集群实验对比	第53-54页
4.3.2 Hadoop集群的加速比验证实验	第54-55页
4.3.3 延迟时间对作业执行时间影响	第55-56页
4.3.4 备份个数对作业的性能影响	第56-57页
4.3.5 内存缓冲区大小对作业的性能影响	第57-58页
4.3.6 单点故障对作业的性能影响	第58页
4.4 本章小结	第58-60页
结论	第60-62页
参考文献	第62-66页
攻读硕士学位期间发表的论文和取得的科研成果	第66-68页
致谢	第68页