AdaBoost在基因表达数据分类中的应用
摘要 | 第2-3页 |
Abstract | 第3页 |
1 绪论 | 第7-11页 |
1.1 研究背景及意义 | 第7页 |
1.2 国内外研究现状 | 第7-9页 |
1.3 论文组织结构 | 第9-11页 |
2 基因数据挖掘综述 | 第11-18页 |
2.1 基因表达数据挖掘过程 | 第11-12页 |
2.1.1 数据采集 | 第11页 |
2.1.2 原始数据预处理 | 第11-12页 |
2.1.3 建立模型 | 第12页 |
2.1.4 精度测试 | 第12页 |
2.2 基因数据挖掘主要方法概述 | 第12-13页 |
2.3 相关难题与应对措施 | 第13页 |
2.3.1 数据噪声 | 第13页 |
2.3.2 样本容量过小 | 第13页 |
2.3.3 样本维度过高 | 第13页 |
2.4 数据预处理 | 第13-14页 |
2.4.1 数据过滤 | 第13-14页 |
2.4.2 数据标准化 | 第14页 |
2.4.3 增加虚拟样本 | 第14页 |
2.5 降低样本维度 | 第14-18页 |
2.5.1 RFE算法 | 第15-16页 |
2.5.2 PCA算法 | 第16页 |
2.5.3 FCBF算法 | 第16-17页 |
2.5.4 Relief算法与ReliefF算法 | 第17-18页 |
3 常见分类算法 | 第18-22页 |
3.1 决策树算法 | 第18-19页 |
3.2 支持向量机算法 | 第19页 |
3.3 朴素贝叶斯算法 | 第19-20页 |
3.4 Bagging算法 | 第20页 |
3.5 Boosting算法 | 第20-22页 |
4 分类实验设计和结果 | 第22-48页 |
4.1 AdaBoost算法 | 第22-24页 |
4.1.1 AdaBoost算法简介 | 第22页 |
4.1.2 AdaBoost算法过程 | 第22-23页 |
4.1.3 AdaBoost算法的误差界 | 第23页 |
4.1.4 AdaBoost算法的过拟合问题 | 第23-24页 |
4.2 实验数据 | 第24-25页 |
4.3 实验平台和实验方式 | 第25-26页 |
4.3.1 WEKA平台 | 第25页 |
4.3.2 Spark平台 | 第25页 |
4.3.3 实验方式 | 第25-26页 |
4.4 实验数据预处理 | 第26页 |
4.5 模型训练方式-交叉验证 | 第26-27页 |
4.6 分类评价标准 | 第27-29页 |
4.6.1 混淆矩阵 | 第27-28页 |
4.6.2 Kappa系数 | 第28页 |
4.6.3 ROC曲线 | 第28-29页 |
4.7 实验设计 | 第29-32页 |
4.7.1 特征选择及分类算法实现 | 第29-30页 |
4.7.2 参数调优 | 第30-31页 |
4.7.3 预测样本 | 第31-32页 |
4.8 实验结果 | 第32-48页 |
4.8.1 未降维数据分类结果 | 第33页 |
4.8.2 降维数据分类结果 | 第33-39页 |
4.8.3 参数调优 | 第39-47页 |
4.8.4 预测样本结果 | 第47-48页 |
结论 | 第48-49页 |
参考文献 | 第49-53页 |
致谢 | 第53-55页 |