中文摘要 | 第1-5页 |
ABSTRACT | 第5-9页 |
第1章 引言 | 第9-12页 |
·研究背景 | 第9页 |
·研究意义 | 第9-10页 |
·本文的贡献 | 第10页 |
·本文内容安排 | 第10-12页 |
第2章 相关工作 | 第12-20页 |
·系统发育树 | 第12-14页 |
·生物信息学 | 第12页 |
·分子进化与系统发育树 | 第12-14页 |
·分布式计算与云计算 | 第14-19页 |
·大数据 | 第14-15页 |
·高通量二代测序 | 第15-16页 |
·传统的分布式并行计算 | 第16页 |
·MapReduce 与 HADOOP | 第16-19页 |
·国内外研究现状 | 第19-20页 |
第3章 系统发育树的构建算法 | 第20-26页 |
·基于序列比对的构建算法 | 第20-21页 |
·Neighbor joining(NJ) | 第20页 |
·贝叶斯方法 | 第20-21页 |
·Maximum likelihood(ML) | 第21页 |
·无序列比对的构建算法 | 第21-23页 |
·Base base correlation(BBC) | 第22页 |
·2 D graphical representation-moment vector (2DMV) | 第22-23页 |
·Component Vector(CV) | 第23页 |
·建树算法的统计学质量判定 | 第23-26页 |
·Bootstrap 抽样 | 第24页 |
·Delete-half-jackknifing | 第24-25页 |
·Permuting 抽样 | 第25-26页 |
第4章 基于 MapReduce 的系统发育树算法实现 | 第26-35页 |
·基本原理 | 第26页 |
·单词背景频率的计算 | 第26-27页 |
·马尔科夫模型 | 第26-27页 |
·动态语言模型 | 第27页 |
·最大熵模型 | 第27页 |
·向量距离的计算 | 第27-29页 |
·欧几里得距离 | 第28页 |
·基于角的距离 | 第28页 |
·基于信息论的距离 | 第28-29页 |
·低复杂度序列的过滤策略 | 第29-30页 |
·简单过滤 | 第29页 |
·基于压缩的过滤 | 第29-30页 |
·具体实现 | 第30-35页 |
·文件预处理与格式转换 | 第30-31页 |
·MAP 操作 | 第31页 |
·第一轮 REDUCE 操作 | 第31页 |
·第二轮 REUCE 操作 | 第31-32页 |
·构建 CV 向量矩阵 | 第32-33页 |
·计算距离矩阵 | 第33-34页 |
·树重建 | 第34-35页 |
第5章 实验结果的分析和讨论 | 第35-39页 |
·程序各个步骤的复杂度分析 | 第35-36页 |
·基于真实数据的实验 | 第36-39页 |
第6章 结论与展望 | 第39-41页 |
·研究结论 | 第39页 |
·研究不足 | 第39-40页 |
·研究展望 | 第40-41页 |
参考文献 | 第41-46页 |
致谢 | 第46-47页 |
攻读学位期间发表的论文 | 第47页 |