| 中文摘要 | 第1-5页 |
| ABSTRACT | 第5-9页 |
| 第1章 引言 | 第9-12页 |
| ·研究背景 | 第9页 |
| ·研究意义 | 第9-10页 |
| ·本文的贡献 | 第10页 |
| ·本文内容安排 | 第10-12页 |
| 第2章 相关工作 | 第12-20页 |
| ·系统发育树 | 第12-14页 |
| ·生物信息学 | 第12页 |
| ·分子进化与系统发育树 | 第12-14页 |
| ·分布式计算与云计算 | 第14-19页 |
| ·大数据 | 第14-15页 |
| ·高通量二代测序 | 第15-16页 |
| ·传统的分布式并行计算 | 第16页 |
| ·MapReduce 与 HADOOP | 第16-19页 |
| ·国内外研究现状 | 第19-20页 |
| 第3章 系统发育树的构建算法 | 第20-26页 |
| ·基于序列比对的构建算法 | 第20-21页 |
| ·Neighbor joining(NJ) | 第20页 |
| ·贝叶斯方法 | 第20-21页 |
| ·Maximum likelihood(ML) | 第21页 |
| ·无序列比对的构建算法 | 第21-23页 |
| ·Base base correlation(BBC) | 第22页 |
| ·2 D graphical representation-moment vector (2DMV) | 第22-23页 |
| ·Component Vector(CV) | 第23页 |
| ·建树算法的统计学质量判定 | 第23-26页 |
| ·Bootstrap 抽样 | 第24页 |
| ·Delete-half-jackknifing | 第24-25页 |
| ·Permuting 抽样 | 第25-26页 |
| 第4章 基于 MapReduce 的系统发育树算法实现 | 第26-35页 |
| ·基本原理 | 第26页 |
| ·单词背景频率的计算 | 第26-27页 |
| ·马尔科夫模型 | 第26-27页 |
| ·动态语言模型 | 第27页 |
| ·最大熵模型 | 第27页 |
| ·向量距离的计算 | 第27-29页 |
| ·欧几里得距离 | 第28页 |
| ·基于角的距离 | 第28页 |
| ·基于信息论的距离 | 第28-29页 |
| ·低复杂度序列的过滤策略 | 第29-30页 |
| ·简单过滤 | 第29页 |
| ·基于压缩的过滤 | 第29-30页 |
| ·具体实现 | 第30-35页 |
| ·文件预处理与格式转换 | 第30-31页 |
| ·MAP 操作 | 第31页 |
| ·第一轮 REDUCE 操作 | 第31页 |
| ·第二轮 REUCE 操作 | 第31-32页 |
| ·构建 CV 向量矩阵 | 第32-33页 |
| ·计算距离矩阵 | 第33-34页 |
| ·树重建 | 第34-35页 |
| 第5章 实验结果的分析和讨论 | 第35-39页 |
| ·程序各个步骤的复杂度分析 | 第35-36页 |
| ·基于真实数据的实验 | 第36-39页 |
| 第6章 结论与展望 | 第39-41页 |
| ·研究结论 | 第39页 |
| ·研究不足 | 第39-40页 |
| ·研究展望 | 第40-41页 |
| 参考文献 | 第41-46页 |
| 致谢 | 第46-47页 |
| 攻读学位期间发表的论文 | 第47页 |