论文部分内容阅读
基因测序技术的发展,为生物信息学提供了大量的数据样本支持,无论是对于生物上物种的进化及遗传的研究还是临床上疾病的检测和诊断等方面都有重要的指导意义。为了减轻癌症对人类健康的影响,相当多的研究工作致力于癌症的诊断和治疗,如个性化肿瘤医学、靶向肿瘤治疗等,其中基于体细胞点突变的癌症分类(SMCC)是一个重要的研究方向,DNA测序数据的急剧增加极大的促进了SMCC的发展,但仍存在数据稀疏性高、样本量小以及分类性能不佳等问题。本文提出了一种基于深度神经网络(DNN)的癌症分类算法,结合基因突变的致病性评分信息,在突变的致病性层面探讨基因突变和癌症的复杂关系,通过该模型挖掘不同癌症类型内部的致病风险和突变模式。本文从TCGA数据库中收集了12种癌症类型3180个病人样本的的体细胞点突变数据,结合基因突变注释工具对突变进行多种致病性评分,从基因层面统计与这些癌症相关的基因及其致病性,由于原有的基于基因层面的统计数据的高维度和稀疏性,使得分类的准确率较低,本文从体细胞点突变层面对TCGA数据进行分析统计,结合基于基因突变频率和样本相似性的基因分组过滤和基于体细胞突变致病性预测的数据降维,最终提出了一种具有高准确率的分类模型。本文的结果表明,该基于深度神经网络和体细胞突变致病性预测的癌症分类算法在准确率上与基于体细胞突变的SVM和KNN模型相比分别提高了19%和30.8%,和最先进的基于DNN的DeepGene方法相比准确率提高了9%,同时该模型揭示了体细胞突变信息与癌症类型的联系,挖掘出了与癌症类型相关的致病基因,本文提出的方法为癌症的致病性研究提供了一种研究思路。