基于Spark的DNA序列拼接算法研究

摘要	第3-4页
Abstract	第4页
缩略语表	第9-10页
1 引言	第10-16页
1.1 DNA序列拼接概述	第10页
1.2 课题背景	第10-11页
1.3 国内外研究现状	第11-13页
1.4 本文主要内容及意义	第13-14页
1.4.1 课题研究内容	第13-14页
1.4.2 课题研究意义	第14页
1.5 论文章节安排	第14-16页
2 相关理论概述	第16-33页
2.1 DNA测序技术	第16-18页
2.1.1 第一代测序技术	第16-17页
2.1.2 第二代测序技术	第17页
2.1.3 第三代测序技术	第17-18页
2.2 序列拼接问题描述	第18-19页
2.2.1 研究DNA拼接算法的目的	第18页
2.2.2 拼接算法难点	第18-19页
2.3 序列拼接算法介绍	第19-24页
2.3.1 Greedy-extension拼接算法	第20-21页
2.3.2 Overlap-Layout-Consensus拼接算法	第21-23页
2.3.3 de-Bruijin graph拼接算法	第23-24页
2.3.4 算法优缺点对比	第24页
2.4 拼接算法难点分析	第24-28页
2.4.1 ARACHNE法	第25-26页
2.4.2 路径相容法	第26-27页
2.4.3 聚类分析法	第27-28页
2.5 拼接算法并行化研究情况	第28页
2.6 Spark并行框架介绍	第28-32页
2.6.1 Spark要架构	第28-29页
2.6.2 RDD简介	第29-30页
2.6.3 Spark的任务处理	第30-31页
2.6.4 Spark处理数据的特点	第31-32页
2.7 本章小结	第32-33页
3 基于Spark的Improved SSA-Spark序列拼接算法	第33-43页
3.1 拼接算法的选择	第33页
3.2 de-Bruijin graph拼接算法具体流程	第33-35页
3.2.1 k-mer序列的生成	第34页
3.2.2 de-Bruijin图的建立	第34-35页
3.2.3 拼接路径的选择	第35页
3.3 Spark并行环境下的DNA序列拼接算法的处理	第35-41页
3.3.1 read文件生成方式	第35-36页
3.3.2 read序列的拆分过程	第36-38页
3.3.3 Improved SSA-Sparκ算法中k-mer的获取	第38页
3.3.4 Improved SSA-Spark算法拼接的路径选择	第38-39页
3.3.5 Improved SSA-Spark算法在新平台Spark并行框架下的实现	第39-41页
3.4 基于Spark的Improved SSA-Spark序列拼接算法步骤描述	第41页
3.5 本章小结	第41-43页
4 模拟及实验结果分析	第43-50页
4.1 云计算平台配置	第43页
4.2 实验数据的产生	第43页
4.3 实验设计	第43-44页
4.4 实验结果与分析	第44-49页
4.4.1 基于Spark的序列拼接算法与单机串行算法的时间比对	第44-45页
4.4.2 基于Spark的序列拼接算法与MapReduce环境下的算法时间比对	第45-47页
4.4.3 Improved SSA-Spark算法在Spark并行环境下的性能测试	第47-48页
4.4.4 Improved SSA-Spark算法的线程数量对运行时间的影响	第48-49页
4.5 本章小结	第49-50页
5 总结与展望	第50-52页
5.1 总结	第50-51页
5.2 展望	第51-52页
致谢	第52-53页
参考文献	第53-57页
作者简介	第57页