论文部分内容阅读
胰腺癌是一种恶性度极高的消化道肿瘤,在所有常见癌症中预后较差,对人类健康构成了严重的威胁。由于胰腺癌早期症状隐匿,且目前临床上应用于胰腺癌的诊断标志物特异度低,90%的患者确诊时已处于晚期。因此,寻找高灵敏度及特异度的肿瘤标志物对胰腺癌的诊断具有重要的意义。近年来,随着免疫细胞及炎症因子在肿瘤微环境中不断被发现、机体免疫系统监视和杀伤癌细胞的作用逐渐被揭示,癌症免疫疗法迅速兴起,肿瘤相关抗原(Tumor associated antigens,TAAs)在癌症诊断及治疗中的作用逐渐被发现。肿瘤相关抗原是一种细胞癌变过程中表达显著增高的抗原分子。肿瘤相关抗原的筛选及鉴定,是癌症免疫诊断的重要途径。基于生物信息学技术,利用已经筛出的肿瘤相关抗原初步构建胰腺癌诊断模型,对胰腺癌诊断具有一定的临床应用价值。目的1.利用SMART技术构建中国人群胰腺癌组织cDNA表达文库,为胰腺癌相关抗原的筛选提供平台。2.基于SEREX(Serological analysis of recombinant cDNA expression library)技术筛选并鉴定胰腺癌相关抗原,为胰腺癌标志物的探索奠定理论基础。3.结合生物信息学及机器学习技术构建胰腺癌诊断模型并评价模型诊断性能,为胰腺癌诊断提供理论依据。方法1.应用SMART技术构建中国人群胰腺癌组织cDNA表达文库:(1)文库构建:从两例新发胰腺癌患者组织中提取Total RNA并合成第一链cDNA。使用Long Distance(LD)-PCR技术进行cDNA扩增,将纯化后的cDNA片段与λTripl Ex2噬菌体载体进行连接。(2)质量鉴定:通过计数培养皿中独立克隆的数量计算文库滴度,使用PCR及琼脂糖凝胶电泳技术检测插入片段的大小及重组率。2.胰腺癌相关抗原的筛选及鉴定:(1)制备大肠杆菌裂解液并对5例胰腺癌患者混合血清进行预吸收;采用血清免疫学技术筛选中国人群胰腺癌组织cDNA表达文库。经过三轮免疫筛选后挑出阳性克隆。(2)孵育阳性克隆并进行PCR扩增,PCR产物进行琼脂糖凝胶电泳分析,根据电泳结果排除假阳性克隆。(3)对阳性克隆的PCR产物进行测序,使用Blast及Gene网站进行序列比对并鉴定各阳性克隆对应的胰腺癌相关基因及其编码蛋白的功能。3.基于生物信息学及机器学习技术构建胰腺癌诊断模型并评价模型诊断性能:(1)经GEPIA网站分析筛选到的胰腺癌相关抗原在基因水平上的差异表达。使用单因素方差分析(One-way ANOVA)方法分析编码36个胰腺癌相关抗原的基因在胰腺癌与健康对照组间m RNA表达量之间的差异。(2)应用机器学习技术构建胰腺癌诊断模型并评价模型诊断性能基于差异基因进行模型构建,样本来源于TCGA、GTEx、ICGC数据库。将样本以7:3随机分为训练集与验证集,结合机器学习及十折交叉验证方法在训练集中构建诊断模型,在验证集中对模型诊断性能进行评价。根据模型在训练集与验证集中的准确率、灵敏度及特异度最终确定出最优模型。4.统计分析采用R语言进行,P<0.05认为差异具有统计学意义。结果1.基于SMART技术构建中国人群胰腺癌组织cDNA表达文库:提取2例胰腺癌组织的Total RNA,进行RNA电泳,发现总RNA均有明显的28S、18S、5S条带,且28S与18S亮度比接近2:1。纯化后Total RNA OD260/280为1.97,在1.7-2.1之间。纯化后的cDNA为连续拖影分布,无特异条带。构建的中国人群胰腺癌组织cDNA表达文库滴度为3×107pfu/mL;文库的插入片段最小约400 bp,最大约2,000 bp,重组率接近100%。2.基于SEREX技术筛选鉴定胰腺癌相关抗原:(1)通过三轮血清免疫学筛选共发现96个阳性克隆经琼脂糖凝胶电泳分析,排除24个假阳性克隆(载体中无插入片段),最终共72个阳性克隆进行测序。(2)经Blast及Gene网站序列比对鉴定发现:72个阳性克隆为43个不同的基因,其中36个为已知功能基因,7个为未知功能基因。36个已知功能基因中:4个基因与组蛋白调控有关;11个基因与细胞的增殖、侵袭、黏附、分化有关;6个基因与胰岛素调控及脂质代谢有关;15个基因与蛋白代谢、调控、修饰、结合相关。3.基于生物信息学及机器学习技术构建胰腺癌诊断模型并评价模型诊断性能:(1)基于SEREX技术筛选的36个肿瘤相关抗原中,有21个抗原的m RNA表达量在病例组与对照组间存在差异表达,癌症组均高于对照组,其差异均具有统计学意义(P<0.05)。(2)应用穷举组合及十折交叉验证特征性选择方法从21个基因中筛选出CKS2、ERGIC2、NQO1、SGTB、EIF2AK2及PAM 6个模型基因并以此构建了支持向量机(SVM)、随机森林(RF)、朴素贝叶斯(NB)、神经网络(NN)等四种诊断模型。在训练集中各模型准确率均超过97%,其中RF模型的准确率、灵敏度、特异度分别为100.00%;在验证集中各模型准确率均超过96.00%,其中RF模型准确率为98.88%,灵敏度为97.53%,特异度达到100.00%。结论1.本研究通过SMART技术成功构建了中国人群胰腺癌组织cDNA表达文库,该文库的质量满足SEREX技术筛选肿瘤相关抗原的要求。2.经SEREX技术筛选到36个胰腺癌相关抗原,其中21个基因m RNA表达量在胰腺癌与健康对照组间存在差异表达(P<0.05)。3.以CKS2、ERGIC2、NQO1、SGTB、EIF2AK2、PAM模型变量成功构建了准确率超过96.00%的胰腺癌诊断模型,其中RF为模型诊断性能最佳,对胰腺癌临床诊断提供了重要的参考价值。