基于Hadoop的并行贝叶斯分类算法及工具研究

摘要	第4-5页
Abstract	第5页
第一章绪论	第12-19页
1.1 引言	第12页
1.2 云计算及并行计算技术	第12-15页
1.3 朴素贝叶斯算法应用于文本分类任务	第15-16页
1.4 数据挖掘工具	第16-17页
1.5 本文的主要内容及意义	第17-18页
1.6 本文组织	第18-19页
第二章云计算技术	第19-31页
2.1 Hadoop的起源及其发展过程	第19-20页
2.2 HDFS分布式文件系统	第20-23页
2.2.1 HDFS的愿景和目标	第20页
2.2.2 HDFS的系统架构	第20-22页
2.2.3 HDFS系统的高容错性	第22-23页
2.3 MapReduce分布式编程模型	第23-26页
2.3.1 MapReduce编程模型概述	第23页
2.3.2 编程模型的架构	第23-25页
2.3.3 Hadoop的MapReduce编程模型的特点	第25-26页
2.4 两个基于Hadoop的分布式应用	第26-30页
2.4.1 HBase简介	第26-28页
2.4.2 Hive项目	第28-30页
2.5 本章小结	第30-31页
第三章一种并行化的半监督朴素贝叶斯分类算法	第31-49页
3.1 贝叶斯学习与朴素贝叶斯分类器	第31-33页
3.2 两种基于半监督学习的朴素贝叶斯算法	第33-36页
3.2.1 基于EM的半监督朴素贝叶斯文档分类算法	第33-35页
3.2.2 一种不基于EM的半监督朴素贝叶斯分类算法	第35-36页
3.3 并行化的半监督朴素贝叶斯算法——PSNB	第36-40页
3.3.1 PSNB-算法总体框架	第36页
3.3.2 PSNB-MR训练阶段算法描述	第36-38页
3.3.3 PSNB-构造分类器及预测阶段描述	第38-40页
3.4 实验设计与运行过程	第40-45页
3.4.1 实验环境	第40页
3.4.2 选用的数据集及其格式	第40-42页
3.4.3 实验运行过程	第42-45页
3.5 算法运行结果及其分析	第45-48页
3.5.1 准确度比较	第45-46页
3.5.2 训练时间分析	第46-48页
3.6 本章小结	第48-49页
第四章面向海量数据的数据挖掘工具的设计与开发	第49-70页
4.1 Dodo工具箱的需求分析与目标	第49-51页
4.1.1 从传统数据挖掘工具到Dodo工具箱	第49页
4.1.2 Dodo工具箱的需求分析	第49-50页
4.1.3 Dodo工具箱的目标	第50-51页
4.2 在Dodo工具箱中应用PSNB算法	第51-54页
4.2.1 启动/置Hadoop	第51-52页
4.2.2 上传数据集	第52-53页
4.2.3 选择PSNB算法/置参数	第53页
4.2.4 提交任务/取结果	第53-54页
4.3 Dodo工具箱的总体架构与设计细节	第54-63页
4.3.1 Dodo工具箱的总体架构	第54-55页
4.3.2 集群控制模块	第55-58页
4.3.3 数据集管理模块	第58-61页
4.3.4 算法管理模块	第61页
4.3.5 任务管理及可视化模块	第61-63页
4.4 Dodo工具箱所应用的关键技术及创新点	第63-69页
4.4.1 为Hadoop系统提供图形化界面	第63-64页
4.4.2 为大数据建立元数据管理系统	第64-66页
4.4.3 将常用的数据挖掘算法并行化	第66-68页
4.4.4 应用MVC编程架构来开发软件	第68-69页
4.5 本章小结	第69-70页
第五章总结与展望	第70-72页
5.1 总结	第70-71页
5.2 展望	第71-72页
参考文献	第72-75页
攻读硕士学位期间完成的学术成果	第75页
攻读硕士学位期间参与的科研课题	第75-76页
致谢	第76-77页