中文摘要 | 第3-4页 |
英文摘要 | 第4-5页 |
1 绪论 | 第8-12页 |
1.1 研究背景及意义 | 第8页 |
1.2 研究现状 | 第8-9页 |
1.3 本文主要研究内容和创新点 | 第9-10页 |
1.4 本文组织结构 | 第10-11页 |
1.5 本章小结 | 第11-12页 |
2 不均衡数据分类研究基础 | 第12-19页 |
2.1 主要研究方向 | 第12-15页 |
2.1.1 数据层面的研究方向 | 第12-13页 |
2.1.2 算法层面的研究方向 | 第13-14页 |
2.1.3 评价标准的优化 | 第14-15页 |
2.2 经典分类算法 | 第15-18页 |
2.2.1 Decision Tree分类方法 | 第16-17页 |
2.2.2 贝叶斯学习算法 | 第17-18页 |
2.3 本章小结 | 第18-19页 |
3 相关过采样算法 | 第19-27页 |
3.1 SMOTE算法 | 第19-20页 |
3.2 Borderline-SMOTE算法 | 第20-23页 |
3.3 ISMOTE算法 | 第23-26页 |
3.4 本章小结 | 第26-27页 |
4 面向少数类样本细分的SD-ISMOTE算法及其改进 | 第27-44页 |
4.1 面向少数类样本细分的SD-ISMOTE算法 | 第27-35页 |
4.1.1 少数类样本细分的必要性 | 第27页 |
4.1.2 少数类样本集细分的形成 | 第27-29页 |
4.1.3 各个细分采样数量决策 | 第29-30页 |
4.1.4 D方法对DANGER集合过采样 | 第30-32页 |
4.1.5 AL方法对AL_SAFE集合过采样 | 第32-33页 |
4.1.6 S方法对SAFE集合过采样 | 第33-34页 |
4.1.7 SD-ISMOTE算法总体流程 | 第34-35页 |
4.2 SD-ISMOTE2算法 | 第35-43页 |
4.2.1 引入聚类的原因 | 第35-36页 |
4.2.2 K-均值聚类 | 第36页 |
4.2.3 簇的形成 | 第36-38页 |
4.2.4 DS方法对DANGER集合过采样 | 第38-39页 |
4.2.5 ALS方法对AL_SAFE集合过采样 | 第39-41页 |
4.2.6 SS方法对SAFE集合过采样 | 第41-42页 |
4.2.7 SD-ISMOTE2总体流程 | 第42-43页 |
4.3 本章小结 | 第43-44页 |
5 实验设计与结果分析 | 第44-58页 |
5.1 实验环境 | 第44-45页 |
5.1.1 实验数据集 | 第44-45页 |
5.1.2 软硬件环境 | 第45页 |
5.2 近邻参数k值的选择 | 第45-49页 |
5.3 聚类参数的选择 | 第49-51页 |
5.4 实验结果及分析 | 第51-57页 |
5.5 本章小结 | 第57-58页 |
6 总结与展望 | 第58-60页 |
6.1 论文总结 | 第58-59页 |
6.2 研究展望 | 第59-60页 |
致谢 | 第60-61页 |
参考文献 | 第61-63页 |
附录 | 第63页 |
作者在攻读硕士学位期间发表论文的目录 | 第63页 |