首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

关联规则算法Apriori的优化及基于Spark的并行化研究

摘要第8-9页
ABSTRACT第9页
第一章 绪论第10-18页
    1.1 课题研究背景及意义第10-12页
    1.2 国内外研究现状第12-15页
        1.2.1 Apriori算法优化技术相关研究第12-14页
        1.2.2 Apriori算法并行化技术相关研究第14-15页
    1.3 本文主要工作第15-16页
    1.4 本文组织结构第16-18页
第二章 相关知识第18-28页
    2.1 Apriori算法概述第18-22页
        2.1.1 Apriori算法简介第18页
        2.1.2 Apriori算法相关概念第18-19页
        2.1.3 Apriori算法流程第19-22页
    2.2 Hadoop并行计算框架第22-23页
    2.3 Spark并行计算框架第23-26页
        2.3.1 弹性分布式数据集RDD第23-25页
        2.3.2 有向无环图DAG第25-26页
    2.4 本章小结第26-28页
第三章 Apriori优化算法I-Apriori第28-42页
    3.1 Apriori算法性能瓶颈第28-29页
        3.1.1 候选项集产生过程第28页
        3.1.2 重复扫描事务数据集第28-29页
        3.1.3 数据量巨大时造成的内存紧张第29页
    3.2 Apriori算法优化策略第29-33页
        3.2.1 布尔向量矩阵第29-30页
        3.2.2 消除候选项集产生过程第30-32页
        3.2.3 BitSet处理机制第32-33页
    3.3 Apriori优化算法I-Apriori第33-39页
        3.3.1 I-Apriori算法流程第33-34页
        3.3.2 I-Apriori算法实现第34-39页
    3.4 I-Apriori算法举例第39-41页
    3.5 本章小结第41-42页
第四章 基于Spark的I-Apriori算法并行化第42-55页
    4.1 IABS算法思想第42-43页
        4.1.1 基于Spark平台并行化的必要性第42-43页
        4.1.2 并行化关键部分第43页
    4.2 Apriori算法与Spark结合的并行化机制第43-46页
        4.2.1 RDD和内存计算第43-44页
        4.2.2 广播变量第44页
        4.2.3 提高并行度第44-46页
    4.3 IABS的并行化实现第46-52页
        4.3.1 频繁项集生成阶段第46-51页
        4.3.2 关联规则生成阶段第51-52页
    4.4 算法时间复杂度分析第52-54页
        4.4.1 YAFIM时间复杂度第52-53页
        4.4.2 IABS时间复杂度第53-54页
    4.5 本章小结第54-55页
第五章 性能分析第55-62页
    5.1 I-Apriori性能分析第55-57页
        5.1.1 实验环境与数据集第55页
        5.1.2 Apriori与I-Apriori性能比较第55-57页
    5.2 IABS性能分析第57-61页
        5.2.1 实验环境与数据集第57页
        5.2.2 IABS与YAFIM性能比较第57-61页
    5.3 本章小结第61-62页
第六章 总结与展望第62-64页
    6.1 论文总结第62页
    6.2 工作展望第62-64页
致谢第64-65页
参考文献第65-69页
作者在学期间取得的学术成果第69页

论文共69页,点击 下载论文
上一篇:三星时差频差无源定位与测速算法研究
下一篇:LLVM循环向量化研究