数据挖掘中分类算法的研究

摘要	第4-5页
ABSTRACT	第5-6页
第一章绪论	第9-15页
1.1 论文研究背景	第9-10页
1.2 论文研究意义	第10页
1.3 国内外研究现状	第10-12页
1.3.1 对“标记瓶颈”问题的研究	第10-12页
1.3.2 对分布式计算平台的研究	第12页
1.4 本文创新点及主要贡献	第12-13页
1.4.1 本文创新点	第12-13页
1.4.2 本文主要贡献	第13页
1.5 论文组织结构	第13-15页
第二章数据挖掘中分类问题概述	第15-23页
2.1 数据挖掘概述	第15-16页
2.2 数据挖掘中的分类问题	第16-19页
2.2.1 分类问题概述	第16-17页
2.2.2 数据挖掘中常用分类算法	第17-19页
2.3 半监督分类方法	第19-21页
2.3.1 半监督学习概述	第19-20页
2.3.2 协同训练算法	第20-21页
2.4 WEKA概述	第21-22页
2.5 本章小结	第22-23页
第三章分布式计算平台Hadoop	第23-27页
3.1 Hadoop概述	第23页
3.2 分布式文件系统HDFS	第23-24页
3.3 并行计算模型MapReduce	第24-25页
3.4 Hadoop的IO	第25页
3.5 MapReduce作业的执行流程	第25-26页
3.6 本章小结	第26-27页
第四章基于半监督分类算法的研究	第27-35页
4.1 Co-training by Committee算法分析	第27-29页
4.1.1 Co-training by Committee算法描述	第27-29页
4.1.2 Co-training by Committee算法的不足	第29页
4.2 基于Co-training by Committee算法的性能提升研究	第29-33页
4.2.1 利用多个分类器标记无标记样本的策略	第30页
4.2.2 基于Data Editing计算标记置信度	第30-31页
4.2.3 改进的Co-training by Committee算法	第31-33页
4.3 本章小结	第33-35页
第五章基于Hadoop平台的算法并行化部署	第35-47页
5.1 改进的Co-training by Committee算法的并行化方案	第35-38页
5.1.1 训练分类器的并行化方案	第35-37页
5.1.2 标记测试样本的并行化方案	第37-38页
5.2 两种并行化方案的MapReduce实现	第38-40页
5.2.1 训练分类器的MapReduce实现	第38-39页
5.2.2 标记测试样本的MapReduce实现	第39-40页
5.3 改进的Co-training by Committee算法在Hadoop平台实现的模块设计	第40-46页
5.4 本章小结	第46-47页
第六章仿真验证	第47-66页
6.1 改进的Co-training by Committee算法的性能验证	第47-56页
6.1.1 仿真实验设置	第47-48页
6.1.2 仿真结果	第48-56页
6.2 改进算法在Hadoop平台上的仿真结果	第56-62页
6.2.1 仿真实验设置	第57-60页
6.2.2 实验结果与分析	第60-62页
6.3 改进算法在网络流量分类中的应用	第62-64页
6.3.1 网络流量分类意义	第62页
6.3.2 网络流量数据集介绍	第62-63页
6.3.3 网络流量分类	第63-64页
6.4 本章小结	第64-66页
第七章结束语	第66-68页
7.1 工作总结	第66-67页
7.2 未来展望	第67-68页
参考文献	第68-71页
致谢	第71-72页
攻读学位期间发表的学术论文目录	第72页