首页--生物科学论文--生物工程学(生物技术)论文--仿生学论文--生物信息论论文

基于统计模型与词嵌入模型的宏基因组数据聚类研究

摘要第4-6页
Abstract第6-7页
第一章 绪论第12-26页
    1.1 研究背景和研究意义第12-15页
        1.1.1 微生物研究对生态环境及人类的重要意义第12-13页
        1.1.2 宏基因组学与高通量测序第13-15页
    1.2 宏基因组物种组分研究现状综述第15-19页
        1.2.1 基于序列比对的宏基因组组分研究方法第16-17页
        1.2.2 免比对的宏基因组组分研究方法第17-19页
    1.3 基于词嵌入的文本分析方法第19-23页
        1.3.1 自然语言处理与语言表示方式第20-21页
        1.3.2 语言模型与word2vec第21-23页
    1.4 论文的基本框架及创新点第23-26页
        1.4.1 论文的研究思路第23-25页
        1.4.2 论文的创新点第25-26页
第二章 宏基因组长序列聚类的统计模型第26-34页
    2.1 k-mer频度向量与马尔科夫背景模型第27-28页
    2.2 d_2~s相异度的引入第28-30页
    2.3 基于相异度的长序列聚类第30-31页
    2.4 聚类结果性能评价第31-34页
第三章 用d_2~sBin对宏基因组长序列聚类分析的实验结果第34-54页
    3.1 实验设计第34-36页
        3.1.1 实验数据集的选择第34-35页
        3.1.2 现有binning工具的选择第35-36页
    3.2 实验内容与结果第36-46页
        3.2.1 d_2~sBin参数选择第36-40页
        3.2.2 d_2~sBin对长序列进行聚类优化第40-45页
        3.2.3 对K-means算法在d_2~sBin中迭代次数的探究第45-46页
    3.3 d_2~sBin的代码实现与运行第46-47页
    3.4 本章附录表格第47-54页
第四章 基于词嵌入的宏基因组长序列聚类分析第54-64页
    4.1 流程设计第54-55页
    4.2 基于词嵌入的宏基因组长序列聚类方法第55-58页
        4.2.1 长序列的分词方法第55-56页
        4.2.2 k-mer词嵌入与长序列嵌入向量第56-57页
        4.2.3 t-SNE降维与可视化第57-58页
    4.3 基于词嵌入的宏基因组长序列实验分析第58-64页
        4.3.1 实验1: 基于词嵌入的宏基因组长序列降维及可视化第58-60页
        4.3.2 实验2: 基于词嵌入的物种系统生成树及相似性度量第60-64页
第五章 总结与展望第64-66页
参考文献第66-72页
攻读硕士期间学术论文发表情况第72-74页
致谢第74-75页

论文共75页,点击 下载论文
上一篇:驱动蛋白Kinesin-1轻重链的相互作用及其复合物晶体学研究
下一篇:拟南芥JAG和TCP5基因调控花器官发育的分子机制研究