首页--经济论文--财政、金融论文--保险论文--中国保险业论文--各种类型保险论文

基于随机森林与GBDT的社会医疗保险欺诈识别问题研究

摘要第2-3页
ABSTRACT第3-4页
1 绪论第8-11页
    1.1 研究背景第8-9页
    1.2 研究的意义第9-10页
    1.3 研究的创新点与局限性第10-11页
2 国内外研究现状与发展趋势第11-17页
    2.1 社会医疗保险欺诈的定义第11-12页
    2.2 社会医疗保险欺诈的现状第12-13页
    2.3 社会医疗保险欺诈的识别第13-17页
        2.3.1 国外的主要识别方法第13-14页
        2.3.2 国内的主要识别方法第14-17页
3 数据预处理第17-29页
    3.1 原始数据说明第17-18页
    3.2 数据清洗第18-29页
        3.2.1 剔除只有一种取值的无效变量第18-19页
        3.2.2 缺失值插补第19-20页
        3.2.3 不规则变量的转化第20-24页
        3.2.4 剔除无效观测第24页
        3.2.5 梳理各金额类变量间的关系第24-27页
        3.2.6 梳理数据集间的逻辑关系第27-29页
4 对社会医疗保险欺诈的描述性统计第29-47页
    4.1 基础描述性统计第29-37页
        4.1.1 时间覆盖范围第29-30页
        4.1.2 各医院的就诊量分布第30-31页
        4.1.3 费用来源方面各项金额的基础统计第31-32页
        4.1.4 费用支付方面各项金额的基础统计第32-33页
        4.1.5 基于出院诊断的主要病症描述性统计第33-35页
        4.1.6 三目统计项目分类第35-36页
        4.1.7 诊疗消费的描述性统计第36-37页
    4.2 引入违规标签后的描述性统计第37-47页
        4.2.1 违规标签与就诊次数第37-38页
        4.2.2 违规标签与交易时间第38-39页
        4.2.3 违规标签与医院编号第39-40页
        4.2.4 违规标签与金额的基本统计第40-43页
        4.2.5 违规标签与病症关键词第43-44页
        4.2.6 违规标签与三目统计项目第44-45页
        4.2.7 违规标签与消费关键词第45-47页
5 特征提取与整合第47-56页
    5.1 全局特征提取第47-52页
        5.1.1 基于就诊地点维度的特征提取第47-50页
        5.1.2 基于就诊费用维度的特征提取第50-52页
        5.1.3 基于关键词维度的特征提取第52页
    5.2 局部特征提取第52-55页
    5.3 特征的整合第55-56页
6 基于随机森林与GBDT的社会医疗保险欺诈识别第56-67页
    6.1 算法介绍第56-60页
        6.1.1 随机森林第56-58页
        6.1.2 GBDT第58-60页
    6.2 算法构建第60-62页
    6.3 模型验证第62-67页
        6.3.1 训练集与测试集的划分第62-63页
        6.3.2 验证指标介绍第63-64页
        6.3.3 验证结果第64-65页
        6.3.4 模型融合第65-67页
7 研究结论与政策建议第67-70页
    7.1 主要研究结论第67-68页
        7.1.1 总体就诊情况与违规人员的特征第67-68页
        7.1.2 社会医疗保险欺诈智能识别具有可行性第68页
    7.2 政策建议第68-70页
参考文献第70-74页
附录第74-80页
后记第80-81页

论文共81页,点击 下载论文
上一篇:供应链质量风险管理对企业质量绩效的影响--高层领导者支持和信息技术的调节作用
下一篇:基于生态进化的企业竞争博弈问题研究