摘要 | 第2-4页 |
abstract | 第4-5页 |
1 绪论 | 第8-17页 |
1.1 研究的背景和意义 | 第8-10页 |
1.2 文献综述 | 第10-15页 |
1.2.1 建模方法的文献综述 | 第10-13页 |
1.2.2 修正方法的文献综述 | 第13-15页 |
1.3 本文主要研究内容及创新点 | 第15-16页 |
1.4 本文的组织结构 | 第16-17页 |
2 非平衡数据集的基本问题 | 第17-22页 |
2.1 数据稀疏 | 第18-19页 |
2.2 评估指标选择 | 第19页 |
2.3 噪声数据干扰 | 第19-20页 |
2.4 阈值设置不合理 | 第20页 |
2.5 数据碎片问题 | 第20-21页 |
2.6 数据分布问题 | 第21-22页 |
3 对非平衡数据的修正方法 | 第22-34页 |
3.1 基于算法视角的探讨 | 第22-29页 |
3.1.1 代价敏感学习 | 第22-23页 |
3.1.2 集成学习 | 第23-26页 |
3.1.3 单类学习 | 第26-27页 |
3.1.4 训练集划分 | 第27页 |
3.1.5 特征选择方法 | 第27-29页 |
3.2 基于数据视角的探讨 | 第29-34页 |
3.2.1 过抽样 | 第29-31页 |
3.2.2 欠抽样 | 第31-34页 |
4 模型评估方法及其比较 | 第34-40页 |
4.1 G-mean | 第36页 |
4.2 F-value | 第36-37页 |
4.3 AUC值 | 第37-40页 |
5 Logistic模型中的非平衡问题 | 第40-59页 |
5.1 因变量建模的主要方法及其比较 | 第40-52页 |
5.1.1 判别分析 | 第41-43页 |
5.1.2 Logistic回归 | 第43-45页 |
5.1.3 K最邻近 | 第45-46页 |
5.1.4 决策树 | 第46-48页 |
5.1.5 支持向量机 | 第48-52页 |
5.2 Logistic模型对非平衡数据敏感性的理论分析 | 第52-53页 |
5.3 Logistic模型对非平衡数据敏感性的实证分析 | 第53-54页 |
5.3.1 数据集描述 | 第53-54页 |
5.3.2 结果分析 | 第54页 |
5.4 基于不同修正方法的结果比较分析 | 第54-59页 |
5.4.1 实验概述 | 第54-56页 |
5.4.2 实验结果及分析 | 第56-58页 |
5.4.3 结论 | 第58-59页 |
6 总结与展望 | 第59-62页 |
6.1 本文总结 | 第59-61页 |
6.2 本文工作展望 | 第61-62页 |
硕士期间发表论文和主要科研成果 | 第62-63页 |
参考文献 | 第63-70页 |
后记 | 第70-71页 |