【摘 要】
:
胃癌的发病率在我国各类癌症中居首位,胃癌早期无明显症状,不易被发现。因此,早期胃癌的筛查对其及时治疗有着重要的临床价值。目前,胃癌的分类研究大多基于病理学图像,这种方法主要依靠主治医师的临床经验判断,准确率低。为了克服胃癌诊断在形态学和影像学方法上存在的缺陷,本文提出了一种基于DNA甲基化测序数据的胃癌分类方案,实现了对早期胃癌的精准分类。本论文针对癌症和肿瘤基因图谱(The Cancer Gen
论文部分内容阅读
胃癌的发病率在我国各类癌症中居首位,胃癌早期无明显症状,不易被发现。因此,早期胃癌的筛查对其及时治疗有着重要的临床价值。目前,胃癌的分类研究大多基于病理学图像,这种方法主要依靠主治医师的临床经验判断,准确率低。为了克服胃癌诊断在形态学和影像学方法上存在的缺陷,本文提出了一种基于DNA甲基化测序数据的胃癌分类方案,实现了对早期胃癌的精准分类。本论文针对癌症和肿瘤基因图谱(The Cancer Genome Atlas,TCGA)中DNA甲基化测序数据不平衡和高噪声现象,提出了一种基于合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)和Tomek Link算法的集成混合采样模型,有效地解决了数据不平衡问题;其次,为了解决DNA甲基化测序数据样本小和高维度问题,本文采用十折交叉验证划分训练集和测试集,然后利用最小冗余最大相关(mRMR)方法对训练集数据进行特征选择,筛选出122个相关性最大的特征;最后,针对小样本数据集分类中end-2-end模型训练模式容易产生过拟合现象,本文采用pre-trained模型提取特征,再训练其他分类器的方法,涉及到的训练参数少,降低了模型的过拟合风险。本论文使用卷积神经网络(Convolutional Neural Network,CNN)训练pre-trained模型,其后将输出特征送入支持向量机(Support Vector Machine,SVM)、改进的深度森林(Deep Forest,DF)和随机森林(Random Forest,RF)三种分类器进行模型训练,得到最终的分类结果。实验结果表明,本文提出的基于DNA甲基化不平衡数据的胃癌分类模型在TCGA数据库上获得了98.5%的准确率,在本校药学院提供的自建数据库上获得了96%的准确率,具有较好的泛化能力。相较于目前研究中最好的分类模型,本文提出的模型准确率提高了5%以上。
其他文献
近些年 ,我国经济理论界对过度进入问题有过许多研究 ,提出了不同的解释和观点 ,多数研究重点集中在过度进入问题的界定、成因和解决对策上。通过对这些研究较系统地评述 ,力
堆煤场是矿区煤尘扩散的主要尘源地,煤尘扩散会影响当地及周边生态环境安全。将抑尘网和抑尘剂应用于矿区堆煤场可以起到抑制煤尘的作用。为了优选矿区堆煤场煤尘抑制措施,通
该文研究接收端采用均圆阵天线阵放置空间有限的条件下,存在相关衰落时MIMO系统的信道容量.建立了衰落相关模型,分析了散射角大小及天线数对信道容量的影响,采用随机理论推导
随着城市现代化进程不断加速,大量人口涌向城市,地上空间日益被压缩,这使得越来越多的城市开始发展地下空间,深基坑工程逐渐增多。合理选择支护方案和支护结构可靠稳定是基坑工程能否安全施工的重点。深基坑支护工程的施工不仅直接影响着本工程的安全,而且还会对周边的环境产生巨大的影响。本文以沈阳某条形深基坑为工程背景,通过依基坑支护结构现场监测、理论分析和数值模拟相结合的方法,对深基坑施工过程中支护结构体系的稳
介绍两种基于统计的自动分类技术(朴素贝叶斯分类器、支持向量机分类器),剖析了基于统计的自动分类的优势及不足.基于统计的自动分类的不足主要表现为:当类别之间分类特征的
《国际商务谈判》是涉及多门学科、兼具强综合性与强实践性的重点课程,但在现实教育实践中,很多新建本科的这门课程在教学中实践性较差。本文正是针对本课程实践教学中的一些
3-甲基吲哚即粪臭素,是小肠中未消化的蛋白质在大肠厌氧微生物作用下的产物之一,对未阉割的公猪肉品质有显著的负面影响.本次实验就对猪肉背膘中3-甲基吲哚的测定方法进
粮票作为一种特殊的流通证券,已经退出了我们的生活,对于许多“80后”、“90后”的孩子们来说,粮票这个词可能已经显得太陌生了,但对许多曾亲身经历过那个时代的人来说,粮票
树大根深则叶茂。于中国特色社会主义事业这棵参天大树而言,马克思主义信仰就是它扎向人民土壤深处、不断汲取智慧与力量的根须。习近平总书记一再强调,崇高信仰始终是我们党的
地震作为一种地质灾害,对人们生命安全造成了严重威胁。众所周知,我国处于环太平洋地震带与欧亚地震带之间,是地震活动十分活跃的地区。随着社会经济水平的不断提升,城市建筑