论文部分内容阅读
乳腺癌是世界上最常见的女性癌症之一,其发病率逐年增加。拉曼光谱技术可以从分子水平的基础上对组织成分改变进行表征和解释,应用在疾病的诊断和活体组织的原位检测具有高灵敏度、无损的优点。但是拉曼光谱数据维度较大,测量过程中存在噪声,如果直接用来鉴别乳腺良恶性肿瘤有一定的难度。因此,针对这一问题,急需建立一个可以判别乳腺肿瘤良恶性模型,从而开展更有针对性的治疗。结合拉曼光谱数据,应用机器学习算法构建识别模型,这样乳腺肿瘤识别率提高,同时人工会诊的效率也得到了提高,达到更好的治疗效果。本文采集168例女性样本的拉曼光谱数据,检测样本由吉林大学第一医院乳腺外科提供。采集到的拉曼光谱数据比较复杂,存在数据维度大,数据样本量少的问题,直接用于构建分类模型,容易产生过拟合的问题,因此,根据研究者之前的工作,归纳出具有代表意义的乳腺组织良恶性的拉曼光谱数据特征峰,研究表明这些特征峰可以表征乳腺组织发生病变时组织成分的变化。经过这一步骤,数据维度降低,使用支持向量机(SVM)、极限学习机(ELM)和K近邻(KNN)方法建立分类模型。实验发现使用归纳出的峰值构建模型,得到的分类预测精度从51.67%到85.00%不等,并且模型有明显的倾向恶性组织类,分类目的不明确。为了解决上诉问题,采取特征选择和特征提取的方法找出最优的特征子集组合,以达到更高的分类准确率且更稳定的模型。分别使用序列前向选择(SFS)、Relief-F和联合稀疏判别分析(JSDA)对乳腺组织的特征峰进行分析,找到最优的特征子集组合。接着分别使用上面提到的分类方法构建模型。实验结果表明:使用特征选择和特征提取方法选取的特征子集组合构建的分类模型预测精度优于使用全部特征峰构建分类模型的预测精度。其中,基于KNN和JSDA构建的分类模型(KNN-JSDA)获得了最好的分类精度。KNN-JSDA模型对乳腺肿瘤良恶性的识别准确率为93.12%。总之,建立的KNN-JSDA模型的Kappa系数为0.84,说明分类效果具有参考价值。这些表明本文建立的KNN-JSDA模型具有良好的识别能力,能够识别乳腺肿瘤的良恶性。