提要 | 第5-6页 |
摘要 | 第6-8页 |
Abstract | 第8-10页 |
第1章 绪论 | 第13-19页 |
1.1 研究背景和研究意义 | 第13-16页 |
1.2 不平衡数据学习的本质 | 第16-19页 |
第2章 相关工作 | 第19-39页 |
2.1 不平衡数据学习的主要方法 | 第19-21页 |
2.1.1 数据层面的方法 | 第19-20页 |
2.1.2 代价敏感学习 | 第20-21页 |
2.1.3 集成学习 | 第21页 |
2.2 模型选择与模型评估 | 第21-36页 |
2.2.1 模型的过拟合 | 第22-24页 |
2.2.2 没有天生优越的分类器 | 第24-26页 |
2.2.3 模型、模型选择和模型评估 | 第26-29页 |
2.2.4 简单划分和交叉验证 | 第29-30页 |
2.2.5 自助法 | 第30页 |
2.2.6 奥坎姆剃刀 | 第30-31页 |
2.2.7 最小描述长度准则 | 第31-33页 |
2.2.8 信息准则 | 第33-34页 |
2.2.9 比较分类器的方法 | 第34-36页 |
2.3 本文的研究内容 | 第36页 |
2.4 本文的组织结构 | 第36-39页 |
第3章 不平衡数据学习算法PCBoost | 第39-65页 |
3.1 不平衡数据学习 | 第39-41页 |
3.2 Boosting算法及其改进 | 第41-46页 |
3.2.1 Adaboost算法 | 第41-44页 |
3.2.2 SMOTEBoost算法 | 第44-45页 |
3.2.3 DataBoost-IM算法 | 第45-46页 |
3.3 不平衡数据挖掘算法PCBoost | 第46-51页 |
3.3.1 数据合成方法 | 第46-49页 |
3.3.2 训练数据权值更新 | 第49-51页 |
3.3.3 PCBoost算法 | 第51页 |
3.4 训练误差的界与参数选择 | 第51-54页 |
3.4.1 训练误差的界 | 第52-53页 |
3.4.2 PCBoost算法参数α_t的选择 | 第53-54页 |
3.5 合成样例连续型属性的分布类型选择 | 第54页 |
3.6 实验分析 | 第54-63页 |
3.6.1 数据集 | 第54-56页 |
3.6.2 评价度量 | 第56-57页 |
3.6.3 实验结果 | 第57-63页 |
3.7 结论 | 第63-65页 |
第4章 基于欠采样的不平衡数据分类算法 | 第65-73页 |
4.1 概述 | 第65页 |
4.2 相关工作 | 第65-66页 |
4.2.1 基于采样技术的不平衡数据学习 | 第65-66页 |
4.2.2 不平衡数据学习的性能评价度量 | 第66页 |
4.3 基于欠采样的不平衡数据学习算法 | 第66-70页 |
4.3.1 数据欠采样方法 | 第66-67页 |
4.3.2 样例间距离的计算方法及邻域半径6的选择 | 第67-69页 |
4.3.3 基于欠采样的不平衡数据分类算法 | 第69-70页 |
4.4 实验与分析 | 第70-71页 |
4.4.1 数据集及实验设置 | 第70-71页 |
4.4.2 实验结果及分析 | 第71页 |
4.5 结束语 | 第71-73页 |
第5章 不平衡数据分类性能评估方法 | 第73-87页 |
5.1 不平衡数据学习的模型评估方法 | 第73-76页 |
5.2 基于加权的分类器性能度量—wAUC | 第76-82页 |
5.2.1 权值选择 | 第76-77页 |
5.2.2 加权AUC | 第77-78页 |
5.2.3 wAUC的性质分析 | 第78-80页 |
5.2.4 实验分析 | 第80-82页 |
5.2.5 结论 | 第82页 |
5.3 基于层次分析的模型选择框架 | 第82-85页 |
5.3.1 分类模型性能评估 | 第82页 |
5.3.2 层次分析法 | 第82-84页 |
5.3.3 基于层次分析法的不平衡数据分类器性能评估框架 | 第84-85页 |
5.4 总结 | 第85-87页 |
第6章 总结与展望 | 第87-91页 |
6.1 本文总结 | 第87-89页 |
6.2 本文工作展望 | 第89-91页 |
参考文献 | 第91-99页 |
作者简介及在学期间所取得的科研成果 | 第99-103页 |
致谢 | 第103页 |