摘要 | 第5-7页 |
ABSTRACT | 第7-8页 |
第一章 绪论 | 第12-34页 |
第一部分 细胞色素P450酶(CYP450)和单核苷酸多态性(SNPS)的研究介绍 | 第12-29页 |
1.1 细胞色素P450酶的研究进展 | 第13-18页 |
1.1.1 细胞色素P450酶的发现和研究发展 | 第13-15页 |
1.1.2 细胞色素P450酶的分类 | 第15-16页 |
1.1.3 细胞色素P450酶的功能 | 第16-17页 |
1.1.4 细胞色素P450酶的多样性 | 第17-18页 |
1.2 单核苷酸多态性(SNP)研究进展 | 第18-28页 |
1.2.1 单核苷酸多态性(SNP) | 第18-19页 |
1.2.2 单核苷酸多态性的发现与寻找(SNP) | 第19-21页 |
1.2.3 单核苷酸多态性(SNP)的测定与评价 | 第21-24页 |
1.2.3.1 错义SNP功能分析 | 第21-23页 |
1.2.3.2 同义SNP和非编码区SNP功能分析 | 第23-24页 |
1.2.4 单核苷酸多态性(SNP)的注释 | 第24-27页 |
1.2.4.1 人类SNP数据库 | 第24-25页 |
1.2.4.2 SNP功能注释工具 | 第25-27页 |
1.2.5 HapMap | 第27-28页 |
1.3 细胞色素P450酶中单核苷酸多态性(SNP)的研究进展 | 第28-29页 |
第二部分 蛋白与小分子相互作用研究进展 | 第29-34页 |
1.1 蛋白-小分子相互作用在药物研发中的研究意义 | 第29-30页 |
1.2 蛋白与小分子相互作用国内外生物信息学研究现状 | 第30-34页 |
1.2.1 基于docking simulation的方法 | 第30-31页 |
1.2.2 基于文本挖掘(text mining)的方法 | 第31-33页 |
1.2.3 基于网络的方法 | 第33页 |
1.2.4 基于相互作用信息构建统计分析或机器学习模型的方法 | 第33-34页 |
第二章 基于蛋白质序列基本特征的人类CYP450酶SNPS预测软件和网页 | 第34-53页 |
第一部分 与本实验相关的机器学习方法的介绍 | 第34-42页 |
2.1 基本机器学习方法介绍 | 第34-41页 |
2.1.1 决策树算法 | 第35-36页 |
2.1.2 随机森林 | 第36页 |
2.1.3 人工神经网络算法 | 第36-38页 |
2.1.4 K近邻算法(KNN) | 第38-39页 |
2.1.5 贝叶斯网络 | 第39页 |
2.1.6 支持向量机(SVM) | 第39-41页 |
2.2 预测模型评价方法 | 第41-42页 |
2.2.1 混淆矩阵 | 第41-42页 |
2.2.2 ROC曲线 | 第42页 |
第二部分 实验部分 | 第42-53页 |
2.1 引言 | 第42-43页 |
2.2 SCYPPRED预测模型 | 第43-49页 |
2.2.1 实验数据 | 第43页 |
2.2.2 属性编码 | 第43-45页 |
2.2.3 libsvm软件包应用 | 第45-48页 |
2.2.4 SCYPPred预测模型结果 | 第48-49页 |
2.3 SCYPPRED本地运行软件 | 第49-50页 |
2.4 SCYPPRED在线预测网页 | 第50-52页 |
2.5 本章小结 | 第52-53页 |
第三章 基于DNA序列预测人类CYP450酶SNPS | 第53-61页 |
3.1 引言 | 第53-54页 |
3.2 实验方法 | 第54-57页 |
3.2.1 实验数据 | 第54页 |
3.2.2 属性编码 | 第54-56页 |
3.2.3 SVM运行 | 第56页 |
3.2.4 分组训练 | 第56-57页 |
3.3 结果和讨论 | 第57-59页 |
3.3.1 预测结果 | 第57-58页 |
3.3.2 与其他方法的比较 | 第58-59页 |
3.4 本章小结 | 第59-61页 |
第四章 高准确性预测人类CYP450酶SNPS | 第61-79页 |
4.1 引言 | 第61-62页 |
4.2 实验方法 | 第62-67页 |
4.2.1 构建模型所采用的数据集 | 第62页 |
4.2.2 特征提取 | 第62-65页 |
4.2.3 基于模糊集理论的平衡数据集方法 | 第65-67页 |
4.3 实验结果和讨论 | 第67-78页 |
4.3.1 序列和目标特性组合(基本组合)的预测模型表现 | 第69-71页 |
4.3.2 PSSM特性(E1)在SNP预测中的表现 | 第71-72页 |
4.3.3 系统熵值(E2)在SNP预测中的表现 | 第72-73页 |
4.3.4 系统熵值(E2)和PSSM(E1)一起结合到基本特征集后的预测表现 | 第73-75页 |
4.3.5 最优训练模型 | 第75-76页 |
4.3.6 与其他方法的比较 | 第76-78页 |
4.4 本章小结 | 第78-79页 |
第五章 基于蝴蝶结药物空间和BART预测蛋白与小分子相互作用 | 第79-109页 |
第一部分 与实验相关的方法的介绍 | 第79-87页 |
5.1 贝叶斯累积回归树(BART) | 第80-85页 |
5.1.1 朴素贝叶斯分类器 | 第80-81页 |
5.1.1.1 贝叶斯定理 | 第80页 |
5.1.1.2 朴素贝叶斯分类 | 第80-81页 |
5.1.2 贝叶斯累加回归树计算模型(BayesianAdditive Regression Tree,BART) | 第81-85页 |
5.1.2.1 累加树模型(A Sum-of-trees Model) | 第81-82页 |
5.1.2.2 先验参数的确定 | 第82-83页 |
5.1.2.3 BART模型的整合M CM C算法 | 第83-85页 |
5.1.2.4 BART模型的分类规则 | 第85页 |
5.2 属性筛选——BORUTA | 第85-87页 |
5.2.1 特征选择及Boruta基本原理 | 第85-86页 |
5.2.2 Boruta算法 | 第86-87页 |
第二部分 实验部分 | 第87-109页 |
5.1 引言 | 第87-89页 |
5.2 实验方法 | 第89-93页 |
5.2.1 实验数据 | 第89-90页 |
5.2.2 蝴蝶结药物空间编码 | 第90-93页 |
5.3 结果和讨论 | 第93-107页 |
5.3.1 蝴蝶结药学空间(Bow-pharmacological space) | 第93-96页 |
5.3.2 基于蝴蝶结药物空间和BART的预测结果 | 第96-99页 |
5.3.3 基于全序列的物化性质特征(SPC)的优越性 | 第99-101页 |
5.3.4 特征选择结果 | 第101-104页 |
5.3.5 与其他预测模型的比较 | 第104-105页 |
5.3.6 我们算法的闪光点——概率 | 第105-106页 |
5.3.7 特征选择结果 | 第106-107页 |
5.4 结论 | 第107-108页 |
5.5 本章小结 | 第108-109页 |
第六章 总结和展望 | 第109-111页 |
6.1 总结 | 第109-110页 |
6.2 展望 | 第110-111页 |
参考文献 | 第111-125页 |
致谢 | 第125-126页 |
攻读博士学位期间已发表或录用的论文 | 第126页 |