摘要 | 第4-6页 |
Abstract | 第6-7页 |
第一章 绪论 | 第12-26页 |
1.1 研究背景和研究意义 | 第12-15页 |
1.1.1 微生物研究对生态环境及人类的重要意义 | 第12-13页 |
1.1.2 宏基因组学与高通量测序 | 第13-15页 |
1.2 宏基因组物种组分研究现状综述 | 第15-19页 |
1.2.1 基于序列比对的宏基因组组分研究方法 | 第16-17页 |
1.2.2 免比对的宏基因组组分研究方法 | 第17-19页 |
1.3 基于词嵌入的文本分析方法 | 第19-23页 |
1.3.1 自然语言处理与语言表示方式 | 第20-21页 |
1.3.2 语言模型与word2vec | 第21-23页 |
1.4 论文的基本框架及创新点 | 第23-26页 |
1.4.1 论文的研究思路 | 第23-25页 |
1.4.2 论文的创新点 | 第25-26页 |
第二章 宏基因组长序列聚类的统计模型 | 第26-34页 |
2.1 k-mer频度向量与马尔科夫背景模型 | 第27-28页 |
2.2 d_2~s相异度的引入 | 第28-30页 |
2.3 基于相异度的长序列聚类 | 第30-31页 |
2.4 聚类结果性能评价 | 第31-34页 |
第三章 用d_2~sBin对宏基因组长序列聚类分析的实验结果 | 第34-54页 |
3.1 实验设计 | 第34-36页 |
3.1.1 实验数据集的选择 | 第34-35页 |
3.1.2 现有binning工具的选择 | 第35-36页 |
3.2 实验内容与结果 | 第36-46页 |
3.2.1 d_2~sBin参数选择 | 第36-40页 |
3.2.2 d_2~sBin对长序列进行聚类优化 | 第40-45页 |
3.2.3 对K-means算法在d_2~sBin中迭代次数的探究 | 第45-46页 |
3.3 d_2~sBin的代码实现与运行 | 第46-47页 |
3.4 本章附录表格 | 第47-54页 |
第四章 基于词嵌入的宏基因组长序列聚类分析 | 第54-64页 |
4.1 流程设计 | 第54-55页 |
4.2 基于词嵌入的宏基因组长序列聚类方法 | 第55-58页 |
4.2.1 长序列的分词方法 | 第55-56页 |
4.2.2 k-mer词嵌入与长序列嵌入向量 | 第56-57页 |
4.2.3 t-SNE降维与可视化 | 第57-58页 |
4.3 基于词嵌入的宏基因组长序列实验分析 | 第58-64页 |
4.3.1 实验1: 基于词嵌入的宏基因组长序列降维及可视化 | 第58-60页 |
4.3.2 实验2: 基于词嵌入的物种系统生成树及相似性度量 | 第60-64页 |
第五章 总结与展望 | 第64-66页 |
参考文献 | 第66-72页 |
攻读硕士期间学术论文发表情况 | 第72-74页 |
致谢 | 第74-75页 |