论文部分内容阅读
罕见疾病是指发病率极低的疾病,由于包含的种类繁多且关联的表型复杂多样,导致临床医生对罕见疾病的认识不足,往往无法将罕见疾病患者从大量的患者中准确的识别和诊断出来。为了解决上述问题,本文整合多层次的生物医学数据和多种分类器,引入在含有噪音的数据上对于其它计算模型具有优势的机器学习算法,构建了罕见疾病辅助诊断系统RDAD(Phenotype-based Rare Disease Auxiliary Diagnosis System)。通过利用eRAM、OMIM、Orphanet等来源的数据和文本挖掘得到的数据,然后基于人类表型本体的语义层次结构,根据表型外显率等信息计算表型TF-IDFHierarchy信息量,并且利用上述罕见疾病-表型关联数据和表型-基因关联数据,分别构建了基于表型信息量的罕见疾病相似度模型(PICS)、基于表型-基因关联的罕见疾病相似度模型(PGAS)、基于人工筛选特征表型空间向量的罕见疾病机器学习预测模型(CPML)和基于人工筛选与文本挖掘特征表型空间向量的罕见疾病机器学习预测模型(APML),最后利用根据真实病历数据提取到的测试数据集验证了上述四个罕见疾病预测模型的准确性。结果显示,上述四个模型均具有很高的预测精确率(≥98%)和可接受的预测召回率(≥67%),其中CPML模型同时具有很高的预测精确率(≥99%)和很高的预测召回率(≥95%),也是本文推荐使用的模型。与此同时,本文完成了RDAD网站平台的开发,RDAD网站主要提供了两个功能:罕见疾病注释信息卡片和罕见疾病预测。用户可通过链接http://www.unimd.org/RDAD/进行访问。