首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

基于Spark Streaming的分布式数据流连接优化

摘要第4-6页
Abstract第6-7页
第1章 绪论第11-19页
    1.1 研究背景第11-14页
        1.1.1 大数据发展背景第11-12页
        1.1.2 数据流概念及特征第12-13页
        1.1.3 流处理平台概述第13-14页
    1.2 数据流连接相关概念及技术第14-16页
        1.2.1 连接第14-15页
        1.2.2 滑动窗口第15-16页
        1.2.3 时间戳第16页
        1.2.4 发展过程第16页
    1.3 本文主要贡献第16-17页
    1.4 本文组织结构第17页
    1.5 本章小结第17-19页
第2章 相关工作第19-31页
    2.1 数据流连接算法第19-23页
        2.1.1 传统数据库连接算法第19-20页
        2.1.2 扩展连接算法第20-21页
        2.1.3 分布式连接算法第21-23页
    2.2 多数据流连接实现机制第23-25页
        2.2.1 多连接算子第23页
        2.2.2 连接树第23-24页
        2.2.3 相互比较第24-25页
    2.3 Kafka分布式消息发布订阅系统第25-28页
        2.3.1 Kafka平台概述第25-26页
        2.3.2 Kafka与Spark Streaming平台交互第26-28页
    2.4 Spark Streaming流处理系统第28-30页
        2.4.1 Spark平台概述第28-30页
        2.4.2 Spark Streaming平台概述第30页
    2.5 本章小结第30-31页
第3章 基于启发式搜索的多数据流连接策略第31-47页
    3.1 问题描述第31-33页
        3.1.1 DAG作业划分规则第31-32页
        3.1.2 Spark Streaming下join算子与多连接操作第32-33页
    3.2 问题分析第33-35页
        3.2.1 多连接下的顺序选择第33-34页
        3.2.2 启发式搜索算法选取第34-35页
    3.3 模型设计第35-38页
        3.3.1 无向赋权图模型设计第35-36页
        3.3.2 图模型存储结构第36-37页
        3.3.3 代价分析第37-38页
    3.4 策略实现第38-45页
        3.4.1 无向赋权图构建第39-40页
        3.4.2 连接顺序选取第40-43页
        3.4.3 动态重建树第43-45页
    3.5 本章小结第45-47页
第4章 基于时间戳的中间结果缓存策略第47-55页
    4.1 问题描述第47-49页
        4.1.1 连接树模式缓存优势第47-48页
        4.1.2 传统环境下的缓存实现第48-49页
    4.2 基本思路第49-51页
        4.2.1 引入时间戳标记第49-50页
        4.2.2 缓存回收第50-51页
    4.3 策略实现第51-54页
    4.4 本章小结第54-55页
第5章 实验分析第55-61页
    5.1 实验环境搭建及配置第55-56页
    5.2 实验数据及思路第56-57页
        5.2.1 Kafka数据生成规则第56页
        5.2.2 模拟数据生成思路第56-57页
    5.3 实验结果分析第57-59页
    5.4 本章小结第59-61页
结论第61-63页
参考文献第63-67页
攻读硕士学位期间所发表的学术论文第67-69页
致谢第69页

论文共69页,点击 下载论文
上一篇:基于JavaEE的P2B网贷平台的设计与实现
下一篇:房山区人才信息管理系统的设计与实现