基于Spark基因序列两两比对任务并行化的研究与实现

摘要	第3-4页
abstract	第4页
缩略语表	第8-9页
1 绪论	第9-15页
1.1 论文的研究背景与意义	第9-11页
1.1.1 选题来源	第9页
1.1.2 研究背景	第9-10页
1.1.3 研究意义	第10-11页
1.2 国内外研究现状	第11-13页
1.3 论文研究内容	第13-14页
1.4 论文组织结构	第14-15页
2 基本理论概述	第15-29页
2.1 序列比对基本理论概述	第15-16页
2.2 序列比对算法	第16-17页
2.2.1 序列比对算法分类	第16页
2.2.2 序列比对经典算法	第16-17页
2.3 Blast算法	第17-20页
2.4 测序技术概述	第20-21页
2.5 分布式计算框架Spark	第21-28页
2.5.1 弹性分布式数据集RDD	第23-24页
2.5.2 Spark的运行模式	第24-25页
2.5.3 Spark框架的资源调度和任务调度	第25-26页
2.5.4 Spark框架任务执行机理	第26-28页
2.6 本章小结	第28-29页
3 基于Spark的Blast算法处理两两比对任务并行化的研究	第29-41页
3.1 基于Spark的两两比对任务执行过程	第29-34页
3.1.1 执行环境准备	第31页
3.1.2 预处理：主节点上任务的抽象	第31-32页
3.1.3 主过程：任务的分发和执行	第32-33页
3.1.4 后续处理	第33-34页
3.2 Blast算法处理过程	第34-40页
3.2.1 构建单词表	第36-37页
3.2.2 单词匹配	第37-38页
3.2.3 种子扩展	第38-40页
3.3 本章小结	第40-41页
4 实验与结果分析	第41-52页
4.1 Spark集群与开发环境搭建	第41-46页
4.1.1 Spark集群搭建	第41-45页
4.1.2 Windows环境下Spark开发环境搭建	第45-46页
4.2 实验结果与数据分析	第46-51页
4.2.1 Blast算法数据准确性分析	第46-47页
4.2.2 不同平台上的任务两两比对实验	第47-50页
4.2.3 Spark集群的可扩展性实验	第50-51页
4.3 本章小结	第51-52页
5 总结与展望	第52-54页
5.1 总结	第52-53页
5.2 展望	第53-54页
致谢	第54-55页
参考文献	第55-59页
作者简介	第59页