论文部分内容阅读
卵巢癌是妇科易发疾病,在世界范围内其死亡率占各种妇科肿瘤首位,严重影响女性的健康水平和生命安全。研究表明,早期发现可以提高患者的生存率与治愈率。目前,蛋白质组学是卵巢癌早期诊断的新技术,其中表面加强激光解吸电离-飞行时间质谱(Surfaced-enhanced Laser desorption-ionization-time of flight Mass Spectrometry,SELDI-TOF-MS)技术最具代表性,但该技术获取的质谱数据维数高,信息复杂且冗余。为此本文提出一种基于概率主成分分析(Probabilistic Principal Components Analysis,PPCA)联合支持向量机(Support Vector Machine,SVM)的卵巢癌早期检测模型。利用美国国立卫生研究院(NIH)联合食品药物管理局(FDA)共同建立的临床蛋白质研究资源网站提供的216例质谱数据,首先采用预处理方法消除信号噪声与基线漂移,然后利用PPCA技术对预处理完后的高维数据进行特征优化与提取,减少了信息的冗余,并降低了数据的维数,然后随机选取70%样本的特征参数及临床诊断结果作为学习集训练SVM检测模型,其中通过网格搜索法优化SVM模型参数,最后利用剩余的30%样本作为测试集,计算均方根误差、识别率与预测率、灵敏性、特异性等指标评估PPCA-SVM模型的检测性能并验证模型的预测能力,将所构造的PPCA-SVM模型分别与传统的反向传播(Back Propagation,BP)神经网络模型、主成分分析联合支持向量机(PCA-SVM)模型进行比较,其中PCA-BP模型的预测率为81.80%;计算二十次平均预测率、敏感性与特异性,PCA-SVM模型的平均值为82.26%、82.29%和82.25%,PPCA-SVM模型的平均值为89.81%、90.45%和88.00%。结果表明,SELDI-TOF-MS技术结合PPCA-SVM检测模型具有预测率高、重复性好等优点,为卵巢癌的早期临床诊断提供了一种新方法。