摘要 | 第4-5页 |
Abstract | 第5页 |
第一章 绪论 | 第12-19页 |
1.1 引言 | 第12页 |
1.2 云计算及并行计算技术 | 第12-15页 |
1.3 朴素贝叶斯算法应用于文本分类任务 | 第15-16页 |
1.4 数据挖掘工具 | 第16-17页 |
1.5 本文的主要内容及意义 | 第17-18页 |
1.6 本文组织 | 第18-19页 |
第二章 云计算技术 | 第19-31页 |
2.1 Hadoop的起源及其发展过程 | 第19-20页 |
2.2 HDFS分布式文件系统 | 第20-23页 |
2.2.1 HDFS的愿景和目标 | 第20页 |
2.2.2 HDFS的系统架构 | 第20-22页 |
2.2.3 HDFS系统的高容错性 | 第22-23页 |
2.3 MapReduce分布式编程模型 | 第23-26页 |
2.3.1 MapReduce编程模型概述 | 第23页 |
2.3.2 编程模型的架构 | 第23-25页 |
2.3.3 Hadoop的MapReduce编程模型的特点 | 第25-26页 |
2.4 两个基于Hadoop的分布式应用 | 第26-30页 |
2.4.1 HBase简介 | 第26-28页 |
2.4.2 Hive项目 | 第28-30页 |
2.5 本章小结 | 第30-31页 |
第三章 一种并行化的半监督朴素贝叶斯分类算法 | 第31-49页 |
3.1 贝叶斯学习与朴素贝叶斯分类器 | 第31-33页 |
3.2 两种基于半监督学习的朴素贝叶斯算法 | 第33-36页 |
3.2.1 基于EM的半监督朴素贝叶斯文档分类算法 | 第33-35页 |
3.2.2 一种不基于EM的半监督朴素贝叶斯分类算法 | 第35-36页 |
3.3 并行化的半监督朴素贝叶斯算法——PSNB | 第36-40页 |
3.3.1 PSNB-算法总体框架 | 第36页 |
3.3.2 PSNB-MR训练阶段算法描述 | 第36-38页 |
3.3.3 PSNB-构造分类器及预测阶段描述 | 第38-40页 |
3.4 实验设计与运行过程 | 第40-45页 |
3.4.1 实验环境 | 第40页 |
3.4.2 选用的数据集及其格式 | 第40-42页 |
3.4.3 实验运行过程 | 第42-45页 |
3.5 算法运行结果及其分析 | 第45-48页 |
3.5.1 准确度比较 | 第45-46页 |
3.5.2 训练时间分析 | 第46-48页 |
3.6 本章小结 | 第48-49页 |
第四章 面向海量数据的数据挖掘工具的设计与开发 | 第49-70页 |
4.1 Dodo工具箱的需求分析与目标 | 第49-51页 |
4.1.1 从传统数据挖掘工具到Dodo工具箱 | 第49页 |
4.1.2 Dodo工具箱的需求分析 | 第49-50页 |
4.1.3 Dodo工具箱的目标 | 第50-51页 |
4.2 在Dodo工具箱中应用PSNB算法 | 第51-54页 |
4.2.1 启动/置Hadoop | 第51-52页 |
4.2.2 上传数据集 | 第52-53页 |
4.2.3 选择PSNB算法/置参数 | 第53页 |
4.2.4 提交任务/取结果 | 第53-54页 |
4.3 Dodo工具箱的总体架构与设计细节 | 第54-63页 |
4.3.1 Dodo工具箱的总体架构 | 第54-55页 |
4.3.2 集群控制模块 | 第55-58页 |
4.3.3 数据集管理模块 | 第58-61页 |
4.3.4 算法管理模块 | 第61页 |
4.3.5 任务管理及可视化模块 | 第61-63页 |
4.4 Dodo工具箱所应用的关键技术及创新点 | 第63-69页 |
4.4.1 为Hadoop系统提供图形化界面 | 第63-64页 |
4.4.2 为大数据建立元数据管理系统 | 第64-66页 |
4.4.3 将常用的数据挖掘算法并行化 | 第66-68页 |
4.4.4 应用MVC编程架构来开发软件 | 第68-69页 |
4.5 本章小结 | 第69-70页 |
第五章 总结与展望 | 第70-72页 |
5.1 总结 | 第70-71页 |
5.2 展望 | 第71-72页 |
参考文献 | 第72-75页 |
攻读硕士学位期间完成的学术成果 | 第75页 |
攻读硕士学位期间参与的科研课题 | 第75-76页 |
致谢 | 第76-77页 |