首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

面向全基因组关联分析的大数据存储架构设计与实现

摘要第5-6页
Abstract第6页
第一章 绪论第10-19页
    1.1 研究背景与意义第10-11页
    1.2 国内外研究现状第11-16页
        1.2.1 全基因组关联分析现状第11-14页
        1.2.2 大数据存储研究现状第14-16页
    1.3 主要研究内容第16-17页
    1.4 论文组织结构第17-19页
第二章 基本概念和相关技术第19-32页
    2.1 基因变异数据格式第19-20页
    2.2 大数据存储与查询技术第20-26页
        2.2.1 分布式文件系统HDFS第20-21页
        2.2.2 分布式数据库HBase第21-22页
        2.2.3 列式存储引擎Kudu第22-25页
        2.2.4 分布式查询引擎Impala第25-26页
    2.3 大数据处理相关技术第26-28页
        2.3.1 MapReduce第26-27页
        2.3.2 Spark第27-28页
    2.4 大数据索引与压缩技术第28-31页
        2.4.1 分布式位图索引第29-30页
        2.4.2 位图压缩方法第30-31页
    2.5 本章小结第31-32页
第三章 基因变异数据存储架构设计第32-42页
    3.1 问题描述第32-33页
    3.2 存储架构整体设计第33-34页
    3.3 数据表结构设计第34-38页
        3.3.1 基于人种信息的分表设计第34-35页
        3.3.2 数据表模式设计第35-37页
        3.3.3 数据表分区设计第37-38页
    3.4 分布式位图索引设计第38-40页
    3.5 查询分发设计第40-41页
    3.6 本章小结第41-42页
第四章 基因变异数据存储架构实现与性能优化第42-56页
    4.1 基于Kudu的分布式存储实现与优化第42-47页
        4.1.1 数据预处理第42-44页
        4.1.2 数据的批量导入第44-46页
        4.1.3 影响Kudu存储性能的因素研究第46-47页
    4.2 分布式位图索引实现与优化第47-54页
        4.2.1 位图索引建立流程第47-48页
        4.2.2 位图压缩技术研究第48-52页
        4.2.3 利用Spark并行技术加速索引处理第52-54页
    4.3 查询分发实现第54-55页
    4.4 本章小结第55-56页
第五章 实验结果及分析第56-72页
    5.1 实验设计目标第56页
    5.2 实验环境及基准数据集第56-57页
    5.3 存储性能测试第57-63页
        5.3.1 数据导入性能第58-59页
        5.3.2 数据读取性能第59-60页
        5.3.3 副本数量影响第60-61页
        5.3.4 分区数量影响第61-63页
    5.4 位图压缩技术对比第63-66页
        5.4.1 位图占用空间第63-64页
        5.4.2 建立位图耗时第64-65页
        5.4.3 位图查询性能第65-66页
    5.5 并行化性能测试第66-67页
        5.5.1 分布式位图建立第66-67页
        5.5.2 分布式位图查询第67页
    5.6 对比评测第67-71页
        5.6.1 与无索引方案的性能对比第67-69页
        5.6.2 与其他大数据存储方案性能对比第69-71页
    5.7 本章小结第71-72页
总结与展望第72-74页
参考文献第74-80页
致谢第80-81页
攻读硕士学位期间取得的研究成果第81-82页
附件第82页

论文共82页,点击 下载论文
上一篇:Android云存储文件系统的设计与实现
下一篇:基于多特征融合的图像分类与检测应用研究