基于统计模型与词嵌入模型的宏基因组数据聚类研究

摘要	第4-6页
Abstract	第6-7页
第一章绪论	第12-26页
1.1 研究背景和研究意义	第12-15页
1.1.1 微生物研究对生态环境及人类的重要意义	第12-13页
1.1.2 宏基因组学与高通量测序	第13-15页
1.2 宏基因组物种组分研究现状综述	第15-19页
1.2.1 基于序列比对的宏基因组组分研究方法	第16-17页
1.2.2 免比对的宏基因组组分研究方法	第17-19页
1.3 基于词嵌入的文本分析方法	第19-23页
1.3.1 自然语言处理与语言表示方式	第20-21页
1.3.2 语言模型与word2vec	第21-23页
1.4 论文的基本框架及创新点	第23-26页
1.4.1 论文的研究思路	第23-25页
1.4.2 论文的创新点	第25-26页
第二章宏基因组长序列聚类的统计模型	第26-34页
2.1 k-mer频度向量与马尔科夫背景模型	第27-28页
2.2 d_2~s相异度的引入	第28-30页
2.3 基于相异度的长序列聚类	第30-31页
2.4 聚类结果性能评价	第31-34页
第三章用d_2~sBin对宏基因组长序列聚类分析的实验结果	第34-54页
3.1 实验设计	第34-36页
3.1.1 实验数据集的选择	第34-35页
3.1.2 现有binning工具的选择	第35-36页
3.2 实验内容与结果	第36-46页
3.2.1 d_2~sBin参数选择	第36-40页
3.2.2 d_2~sBin对长序列进行聚类优化	第40-45页
3.2.3 对K-means算法在d_2~sBin中迭代次数的探究	第45-46页
3.3 d_2~sBin的代码实现与运行	第46-47页
3.4 本章附录表格	第47-54页
第四章基于词嵌入的宏基因组长序列聚类分析	第54-64页
4.1 流程设计	第54-55页
4.2 基于词嵌入的宏基因组长序列聚类方法	第55-58页
4.2.1 长序列的分词方法	第55-56页
4.2.2 k-mer词嵌入与长序列嵌入向量	第56-57页
4.2.3 t-SNE降维与可视化	第57-58页
4.3 基于词嵌入的宏基因组长序列实验分析	第58-64页
4.3.1 实验1: 基于词嵌入的宏基因组长序列降维及可视化	第58-60页
4.3.2 实验2: 基于词嵌入的物种系统生成树及相似性度量	第60-64页
第五章总结与展望	第64-66页
参考文献	第66-72页
攻读硕士期间学术论文发表情况	第72-74页
致谢	第74-75页