绪 论 | 第8-18页 |
1.1 原核生物及真核生物基因组 | 第8-10页 |
1.2 生物信息学及其主要研究内容 | 第10-12页 |
1.3 原核及真核生物基因识别算法 | 第12-15页 |
1.4 本论文的主要工作 | 第15-18页 |
第二章 DNA序列的Z曲线理论 | 第18-25页 |
2.1 DNA序列的Z曲线理论 | 第18-19页 |
2.2 考虑密码子内部相邻碱基近程相关性的Z曲线理论 | 第19-21页 |
2.3 描述基因组GC含量沿序列分布的1曲线 | 第21-22页 |
2.4 Z曲线理论的应用 | 第22-25页 |
第三章 细菌和古细菌基因组中可疑ORFS的基因识别算法 | 第25-41页 |
3.1 引言 | 第25-26页 |
3.2 材料与方法 | 第26-29页 |
3.2.1 材料 | 第26-28页 |
3.2.2 方法 | 第28-29页 |
3.3 结果 | 第29-34页 |
3.3.1 十重交叉检验 (Ten-fold cross-validation tests) | 第29-31页 |
3.3.2 最终Fisher系数及第十一重交叉检验 | 第31-34页 |
3.4 讨论 | 第34-40页 |
3.4.1 用Z曲线方法得到高识别精度的原因 | 第34-38页 |
3.4.2 57个细菌、古细菌基因组中Fisher系数和GC含量的关系 | 第38-40页 |
3.5 网上服务及补充材料 | 第40-41页 |
第四章 七个亲缘关系很远的高GC含量微生物基因组采用相似的密码子使用模式 | 第41-52页 |
4.1 引言 | 第41-42页 |
4.2 材料与方法 | 第42-44页 |
4.3 结果与讨论 | 第44-52页 |
4.3.1 算法的识别精度及Fisher系数在第一组中的通用性 | 第44-47页 |
4.3.2 十个基因组中碱基在三个密码子位的分布模式 | 第47-50页 |
4.3.3 第一组中三个参数的重要性排序以及C. crescentus与lobacterium. sp. NRC的GC2-GC3 图 | 第50-52页 |
第五章 冠状病毒基因识别及多聚蛋白酶切位点预测软件ZCURVE_COV及其在SARS冠状病毒基因组分析中的应用 | 第52-75页 |
5.1 引言 | 第53-56页 |
5.2 材料与方法 | 第56-64页 |
5.2.1 数据库 | 第56-57页 |
5.2.2 基因识别算法 | 第57-64页 |
5.3 结果与讨论 | 第64-74页 |
5.3.1 比较ZCURVE_CoV和GeneMark.hmm | 第64-65页 |
5.3.2 应用ZCURVE_CoV分析SARS-CoV基因组 | 第65-68页 |
5.3.3 多序列比对6个可能的非结构蛋白编码基因 | 第68-69页 |
5.3.4 冠状病毒基因组多聚蛋白酶切位点预测结果 | 第69-73页 |
5.3.5 网上服务及补充材料 | 第73-74页 |
5.4 结论 | 第74-75页 |
第六章 拟南芥基因组的ISOCHORE结构分析 | 第75-86页 |
6.1 引言 | 第76-77页 |
6.2 材料与方法 | 第77页 |
6.2.1 材料 | 第77页 |
6.2.2 Z’曲线方法 | 第77页 |
6.3 结果与讨论 | 第77-83页 |
6.3.1 拟南芥五条染色体的Z’曲线及isochore的特征 | 第77-81页 |
6.3.2 isochore的一些生物学特征 | 第81-83页 |
6.4 结论 | 第83-86页 |
第七章 基于Z曲线方法的真核生物基因识别软件ZCURVE_E | 第86-103页 |
7.1 引言 | 第86-88页 |
7.2 材料与方法 | 第88-97页 |
7.2.1 训练和检验集 | 第88-89页 |
7.2.2 算法描述 | 第89-97页 |
7.3 结果与讨论 | 第97-101页 |
7.3.1 基于四个物种检验集的基因识别预测结果 | 第97-100页 |
7.3.2 联合使用Zcurve_E 和 Genscan | 第100-101页 |
7.4 网站介绍 | 第101-102页 |
结论 | 第102-103页 |
总结论 | 第103-105页 |
参考文献 | 第105-116页 |
发表论文及参加科研情况说明 | 第116-117页 |
附录I 主要的原核及真核生物从头预测基因识别软件及网址 | 第117-118页 |
附录II 多聚蛋白酶切位点分析所用的冠状病毒基因组 | 第118-119页 |
附录III 水稻检验库165条序列的GENBANK号 | 第119-120页 |
致 谢 | 第120页 |