首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

基于Spark MLlib统一数据挖掘服务平台的研究与实现

中文摘要第3-4页
Abstract第4-5页
第一章 绪论第8-14页
    1.1 课题研究的背景与意义第8-9页
    1.2 课题研究现状第9-12页
    1.3 本文主要工作第12-13页
    1.4 本文的组织结构第13-14页
第二章 数据处理相关理论概念第14-21页
    2.1 数据挖掘第14-16页
        2.1.1 数据挖掘基本流程第14页
        2.1.2 CRISP-DM模型第14-16页
    2.2 并行数据处理框架第16-19页
        2.2.1 Hadoop并行框架第16-18页
        2.2.2 Spark并行框架第18-19页
    2.3 Spark MLlib介绍第19-20页
    2.4 本章小结第20-21页
第三章 平台架构及各层设计第21-34页
    3.1 通信层第21-23页
    3.2 云基础层第23-25页
    3.3 分析挖掘层第25-32页
        3.3.1 工作流管理模块第25-27页
        3.3.2 数据预处理第27页
        3.3.3 批量数据挖掘第27-29页
        3.3.4 实时数据挖掘第29-30页
        3.3.5 统一接口设计第30-32页
    3.4 可视化层第32页
    3.5 本章小结第32-34页
第四章 各模块实现的算法第34-50页
    4.1 预处理算法第34-36页
        4.1.1 特征选择第34-36页
        4.1.2 归一化第36页
    4.2 分类算法第36-42页
        4.2.1 方法概览第36-37页
        4.2.2 决策树分类第37-38页
        4.2.3 逻辑回归分类第38-40页
        4.2.4 随机森林分类第40-41页
        4.2.5 支持向量机SVM分类第41-42页
    4.3 聚类算法第42-45页
        4.3.1 方法概览第43页
        4.3.2 GaussianMixture聚类第43-44页
        4.3.3 k-means聚类第44页
        4.3.4 LDA聚类第44-45页
    4.4 回归算法第45-49页
        4.4.1 方法概览第45页
        4.4.2 决策树回归第45-47页
        4.4.3 随机森林回归第47-49页
    4.5 本章小结第49-50页
第五章 实例研究第50-75页
    5.1 电力负荷预测介绍第50页
    5.2 负荷聚类第50-58页
        5.2.1 实验数据集第50-51页
        5.2.2 总体预测流程第51页
        5.2.3 页面设计流程第51-53页
        5.2.4 预处理第53-55页
        5.2.5 数据后处理第55-56页
        5.2.6 聚类实验结果分析第56-58页
    5.3 负荷预测第58-73页
        5.3.1 总体预测流程第59-60页
        5.3.2 界面设计流程第60-61页
        5.3.3 数据预处理第61-68页
            5.3.3.1 原始数据说明第61-63页
            5.3.3.2 原始数据整合第63-66页
            5.3.3.3 数据采样第66页
            5.3.3.4 数据过滤第66-67页
            5.3.3.5 缺失负荷填充第67-68页
        5.3.4 随机森林算法第68页
        5.3.5 输出结果格式第68-69页
        5.3.6 实验结果分析第69-73页
    5.7 本章小结第73-75页
总结与展望第75-76页
参考文献第76-78页
致谢第78-79页
个人简历第79-80页
在校期间的研究成果第80页

论文共80页,点击 下载论文
上一篇:上海港港口物流竞争力评价研究
下一篇:船舶融资租赁估值的影响因素分析