基于表型的罕见疾病辅助诊断系统

内容摘要	第6-7页
Abstract	第7页
1 绪论	第14-23页
1.1 研究背景	第14-16页
1.1.1 罕见疾病	第14-15页
1.1.2 罕见疾病和表型的关系	第15-16页
1.2 研究现状	第16-18页
1.2.1 Phenomizer	第16-17页
1.2.2 FindZebra	第17-18页
1.3 本文涉及疾病数据库简介	第18-20页
1.3.1 OMIM	第18-19页
1.3.2 Orphanet	第19页
1.3.3 DECIPHER	第19-20页
1.3.4 eRAM	第20页
1.4 罕见疾病辅助诊断系统的构建流程	第20-21页
1.5 罕见疾病辅助诊断的意义	第21-23页
2 罕见疾病数据收集与处理	第23-36页
2.1 人类表型本体	第23-25页
2.2 RAMEDIS	第25-26页
2.3 PhenoTips	第26页
2.4 罕见疾病-表型文本挖掘	第26-29页
2.4.1 文本挖掘	第26-27页
2.4.2 数据字典构建	第27-28页
2.4.3 罕见疾病-表型关联模式	第28页
2.4.4 文本挖掘结果统计	第28-29页
2.5 罕见疾病预测模型训练集数据整合	第29-34页
2.5.1 罕见疾病-表型关联数据	第29-30页
2.5.2 表型-基因关联数据	第30-31页
2.5.3 罕见疾病预测模型数据集	第31-34页
2.6 罕见疾病辅助诊断平台网站数据整合	第34-36页
3 罕见疾病预测模型建模	第36-54页
3.1 基于语义层次的罕见疾病-特征表型空间向量	第36-39页
3.1.1 表型TF-IDF加权	第36-37页
3.1.2 表型层次相关性系数	第37-38页
3.1.3 表型TF-IDF-Hierarchy信息量	第38页
3.1.4 构建罕见疾病-特征表型空间向量	第38-39页
3.2 贝叶斯平均打分算法	第39页
3.3 基于表型信息量的罕见疾病相似度模型	第39-43页
3.3.1 罕见疾病余弦相似度	第40页
3.3.2 罕见疾病Tanimoto相似系数	第40-41页
3.3.3 罕见疾病ΨiScore打分	第41页
3.3.4 罕见疾病MICA语义相似度	第41-42页
3.3.5 基于表型信息量的罕见疾病相似度建模	第42-43页
3.4 基于表型-基因关联的罕见疾病相似度模型	第43-45页
3.4.1 表型余弦相似度	第43页
3.4.2 表型Tanimoto相似系数	第43页
3.4.3 基于关联基因的表型集合相似度	第43-44页
3.4.4 基于表型-基因关联的罕见疾病相似度建模	第44-45页
3.5 基于特征表型空间向量的罕见疾病机器学习预测模型	第45-51页
3.5.1 罕见疾病Softmax回归预测算法	第45-47页
3.5.2 罕见疾病K-近邻预测算法	第47页
3.5.3 罕见疾病随机森林预测算法	第47-48页
3.5.4 罕见疾病极端随机树预测算法	第48-49页
3.5.5 罕见疾病朴素贝叶斯预测算法	第49-50页
3.5.6 罕见疾病深度神经网络预测算法	第50-51页
3.5.7 基于特征表型空间向量的罕见疾病机器学习预测算法建模	第51页
3.6 罕见疾病预测模型汇总	第51-54页
4 罕见疾病预测模型评估	第54-66页
4.1 罕见疾病预测模型真实病历测试数据集	第54-55页
4.2 罕见疾病预测模型评估方法	第55-64页
4.2.1 混淆矩阵	第55-57页
4.2.2 ROC曲线及AUC面积	第57-59页
4.2.3 精确率及召回率	第59-62页
4.2.4 预测结果排名分布	第62-63页
4.2.5 不同检索表型个数对应的结果排名分布	第63-64页
4.3 罕见疾病预测模型评估结论	第64-66页
5 罕见疾病辅助诊断系统网站	第66-69页
5.1 罕见疾病注释信息卡片	第66-67页
5.2 罕见疾病辅助诊断	第67-69页
6 结语	第69-72页
6.1 总结	第69-71页
6.2 展望	第71-72页
参考文献	第72-78页
附录	第78-85页
附录1：本文PICS模型预测结果混淆矩阵	第78-79页
附录2：本文PGAS模型预测结果混淆矩阵	第79-80页
附录3：本文APML模型预测结果混淆矩阵	第80-81页
附录4：本文罕见疾病预测模型测试集	第81-83页
附录5：常用模型评价指标	第83页
附录6：本文RDAD网站提供的多种检索方式	第83-84页
附录7：本文CPML模型集成的分类器	第84页
附录8：本文APML模型集成的分类器	第84-85页
后记	第85-86页
作者简历及在学期间所取得的科研成果	第86-87页