论文部分内容阅读
临床数据中蕴含着许多有价值的信息,对于医生明确诊断,治疗疾病具有重要意义。但是现实生活中的临床数据由于保密性、不完整性,罕见疾病样本数量少,以及对于一些诊断困难疾病的临床数据类别标签获取困难等客观原因导致无法获得大量的临床样本。由这些原因造成的临床数据分类问题是一个典型的小样本数据分类问题。但是小样本临床数据采用传统分类算法训练的分类模型分类性能较低,不能满足现实生活的需要。为了进一步提高分类性能,为临床诊断提供一种有效的辅助诊断手段,本论文以临床数据为基础,针对不同疾病的小样本临床数据进行了研究,提出了数据扩增协同分类的小样本临床数据分类方法。本论文主要取得了如下成果:
1.从临床数据样本量少出发,为了能够获得大量的样本,提出了基于高斯混合模型的数据扩增方法。通过对已有临床数据高斯混合分布的估计生成大量带有类别标签的虚拟数据即扩增数据,这样可以为接下来的分类任务提供大量的数据支持。
2.本文在“数据扩增协同分类”思想下提出了两种分类算法:第一种是基于数据扩增的分类算法:对临床训练数据通过数据扩增生成大量扩增数据,然后将扩增数据和临床训练数据组成新的训练集训练传统的有监督分类模型。第二种是数据扩增协同半监督循环随机森林(DA-SSCRF)分类算法:通过对第一种算法的理论及实验分析发现数据扩增给出的类别标签存在错误会导致分类性能下降。因此为了给扩增数据标记可信度高的类别标签,本文引入了半监督学习思想,将临床训练数据作为有标签数据,对临床训练数据扩增得到的扩增数据作为无标签数据,最终提出了小样本分类背景下的半监督循环随机森林分类算法。通过构造半监督分类模型,使得扩增数据能够起到强化分类性能的作用。
3.通过八种疾病临床数据集的验证,DA-SSCRF分类算法的分类准确率比不进行数据扩增的有监督分类算法和进行数据扩增的其它半监督分类算法的准确率提升了3%到11%。
4.为了证明DA-SSCRF算法的实用性,将DA-SSCRF算法应用到了来自某三甲医院的脑膜炎疾病临床数据集上。本文通过基于变异系数的特征选择方法从原始的52维临床信息中选出了10维特征组成脑膜炎临床数据集,实验结果也表明DA-SSCRF算法在脑膜炎疾病类型的诊断准确率上提升3%,在临床医生诊断困难的结核性脑膜炎和隐球菌脑膜炎这两种类型的诊断率上分别提升了6%和10%。DA-SSCRF算法通过10维脑膜炎临床信息就能够实现对脑膜炎快速高效的诊断,对于脑膜炎疾病类型诊断具有重要意义。
综上,本文针对小样本临床数据的分类问题提出了相应的解决办法,有效提高了疾病诊断的准确性,对于辅助医生进行疾病诊断具有重要意义。
1.从临床数据样本量少出发,为了能够获得大量的样本,提出了基于高斯混合模型的数据扩增方法。通过对已有临床数据高斯混合分布的估计生成大量带有类别标签的虚拟数据即扩增数据,这样可以为接下来的分类任务提供大量的数据支持。
2.本文在“数据扩增协同分类”思想下提出了两种分类算法:第一种是基于数据扩增的分类算法:对临床训练数据通过数据扩增生成大量扩增数据,然后将扩增数据和临床训练数据组成新的训练集训练传统的有监督分类模型。第二种是数据扩增协同半监督循环随机森林(DA-SSCRF)分类算法:通过对第一种算法的理论及实验分析发现数据扩增给出的类别标签存在错误会导致分类性能下降。因此为了给扩增数据标记可信度高的类别标签,本文引入了半监督学习思想,将临床训练数据作为有标签数据,对临床训练数据扩增得到的扩增数据作为无标签数据,最终提出了小样本分类背景下的半监督循环随机森林分类算法。通过构造半监督分类模型,使得扩增数据能够起到强化分类性能的作用。
3.通过八种疾病临床数据集的验证,DA-SSCRF分类算法的分类准确率比不进行数据扩增的有监督分类算法和进行数据扩增的其它半监督分类算法的准确率提升了3%到11%。
4.为了证明DA-SSCRF算法的实用性,将DA-SSCRF算法应用到了来自某三甲医院的脑膜炎疾病临床数据集上。本文通过基于变异系数的特征选择方法从原始的52维临床信息中选出了10维特征组成脑膜炎临床数据集,实验结果也表明DA-SSCRF算法在脑膜炎疾病类型的诊断准确率上提升3%,在临床医生诊断困难的结核性脑膜炎和隐球菌脑膜炎这两种类型的诊断率上分别提升了6%和10%。DA-SSCRF算法通过10维脑膜炎临床信息就能够实现对脑膜炎快速高效的诊断,对于脑膜炎疾病类型诊断具有重要意义。
综上,本文针对小样本临床数据的分类问题提出了相应的解决办法,有效提高了疾病诊断的准确性,对于辅助医生进行疾病诊断具有重要意义。