首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

基于改进分区算法的Spark数据倾斜优化研究

摘要第4-5页
Abstract第5-6页
1 绪论第9-16页
    1.1 研究背景第9-11页
    1.2 国内外研究现状第11-14页
    1.3 主要研究内容第14-15页
    1.4 本文结构第15-16页
2 相关理论基础第16-31页
    2.1 Hadoop与Map Reduce介绍第16-19页
    2.2 Spark介绍第19-24页
    2.3 聚合查询第24-25页
    2.4 连接查询第25-27页
    2.5 数据倾斜问题介绍第27-30页
    2.6 本章小结第30-31页
3 聚合查询数据倾斜问题优化第31-41页
    3.1 Spark常用分区算法第31-33页
    3.2 基于分布感知的改进值域分区方案第33-35页
    3.3 水池抽样算法第35-36页
    3.4 I/O代价的定义第36-39页
    3.5 分区算法设计与实现第39-40页
    3.6 本章小结第40-41页
4 二元连接中数据倾斜问题的研究第41-53页
    4.1 基于分布感知的二元等值连接倾斜优化方案介绍第41-43页
    4.2 二元连接I/O代价定义第43-46页
    4.3 簇分割连接算法设计第46-51页
    4.4 连接优化方案在Spark上的实现第51-52页
    4.5 算法开销对比第52页
    4.6 本章小结第52-53页
5 实验对比与分析第53-68页
    5.1 实验环境第53-55页
    5.2 聚合操作优化方案测试第55-60页
    5.3 二元连接优化方案测试第60-66页
    5.4 本章小结第66-68页
6 总结与展望第68-70页
    6.1 工作总结第68-69页
    6.2 工作展望第69-70页
致谢第70-71页
参考文献第71-74页

论文共74页,点击 下载论文
上一篇:球头磨具曲面抛光相关磨削参数研究
下一篇:城市商业银行客户关系管理研究