基于Hadoop平台的医疗保险欺诈检测的研究与应用

摘要	第5-6页
ABSTRACT	第6-7页
第一章绪论	第10-17页
1.1 背景与意义	第10-12页
1.2 国内外研究历史与现状	第12-14页
1.3 本文的主要贡献与创新	第14-16页
1.4 本论文的结构安排	第16-17页
第二章欺诈检测技术简介	第17-28页
2.1 DBSCAN算法	第17-20页
2.1.1 DBSCAN算法思想	第18-19页
2.1.2 DBSCAN的参数调节	第19-20页
2.2 随机森林算法	第20-24页
2.2.1 随机森林中的决策树	第22-23页
2.2.2 随机森林中的参数	第23-24页
2.3 Hadoop	第24-28页
2.3.1 HDFS	第25-26页
2.3.2 Map-Reduce编程模型	第26-28页
第三章特征工程	第28-39页
3.1 数据源	第28-30页
3.2 数据预处理	第30-34页
3.2.1 数据清洗	第30-31页
3.2.2 格式化处理	第31-32页
3.2.3 缺失值处理	第32-34页
3.3 特征提取	第34-37页
3.4 特征处理	第37-38页
3.4.1 离散特征的数值化	第37-38页
3.4.2 归一化	第38页
3.5 本章小结	第38-39页
第四章基于聚类的异常群簇划分	第39-55页
4.1 聚类分析在欺诈检测中的应用	第39-41页
4.1.1 类不平衡问题	第39-40页
4.1.2 常用聚类算法	第40-41页
4.2 聚类指标	第41-43页
4.2.1 距离的度量	第41页
4.2.2 异常群体的划分	第41-43页
4.2.3 算法效果评判标准	第43页
4.3 对比实验	第43-54页
4.3.1 Kmeans聚类分析	第44-47页
4.3.1.1 参数选择	第44页
4.3.1.2 实验分析	第44-47页
4.3.2 混合高斯模型聚类分析	第47-50页
4.3.2.1 参数选择	第48页
4.3.2.2 实验分析	第48-50页
4.3.3 DBSCAN聚类分析	第50-52页
4.3.4 聚类算法对比分析	第52-54页
4.4 本章小结	第54-55页
第五章基于随机森林的欺诈检测	第55-64页
5.1 基于密度的采样技术	第56-58页
5.2 基分类器的集成策略	第58-59页
5.3 实验与分析	第59-63页
5.4 本章小结	第63-64页
第六章基于Hadoop的异常欺诈检测系统	第64-78页
6.1 聚类分析模块	第65-72页
6.1.1 数据集切分	第65-69页
6.1.2 局部DBSCAN聚类	第69页
6.1.3 聚类结果的合并	第69-72页
6.2 随机森林模块	第72-76页
6.2.1 数据分发	第73-75页
6.2.2 数据预测	第75-76页
6.3 审核模块	第76-77页
6.4 本章小结	第77-78页
第七章总结与展望	第78-80页
7.1 总结	第78页
7.2 展望	第78-80页
致谢	第80-81页
参考文献	第81-83页