论文部分内容阅读
背景与目的:膀胱癌是泌尿系常见的恶性肿瘤,可分为非肌层浸润性膀胱癌(Non-muscle invasive bladder cancer,NMIBC)和肌层浸润性膀胱癌(muscle invasive bladder cancer,MIBC);研究表明有高达 45%的 NMIBC 会进展为 MIBC,而MIBC患者需行根治性手术后输尿管皮肤造口,这给患者带来了生活上的不便和经济负担。因此研究NIBC患者疾病进展的机制很有临床价值。研究表明强其多能分化和维持自我更新的能力且体细胞去分化程度与膀胱肿瘤组织干性呈正相关。目前,研究人员大多通过对单个基因进行干性验证来研究其在NMIBC的进展与肿瘤干性细胞相关,成熟的体细胞通过诱导特定基因表达可增细胞去分化中的作用;但该方法很难发现新的干性基因以及验证的基因具有局限性。本课题将利用机器学习算法对NMIBC组织中干性基因进行量化并进一步通过肿瘤组织基因表达情况对干性相关调控机制进行研究,寻找调控组织干性的关键信号通路及转录因子,以期为预防NMIBC进展提供潜在生物标志物。材料与方法:本课题从EGA数据库官网下载编码为“EGAS00001001236”的NMIBC基因表达数据,其中包含460例NMIBC样本和16例MIBC样本;并在线下载对应的临床随访信息。利用机器学习算法对NMIBC全谱基因进行干性打分,同时利用cox回归模型筛选与疾病进展相关的基因,根据皮尔森相关系数将相关系数高的干性基因作为关键干性基因。随后对不同样本间的关键干性基因表达量进行组间均一化后对基因表达特征进行研究,选用合适算法将NMIBC患者分为干性不同的亚型,研究各亚型间疾病进展快慢的关系。探索不同组织干性与年龄、性别和各种不同分子分型等的相关性;利用Reactome数据库对关键干性基因功能及其富集通路进行研究并根据基因分布空间位置寻找调控的关键干性基因的转录因子,计算各转录因子的干性相关系数和其所调控的关键干性基因数目筛选出潜在的与组织干性相关性高的多个转录因子;研究转录因子与被其调控基因间表达的关系,将共表达一致性高的转录因子作为可能与组织干性相关的潜在因素。研究结果:本研究对检测的43204个基因干性进行计算,筛选出187个与干性相关的基因,其中有7个基因与干性的相关系数小于0,分别为MMP2,TFEB,APCDD1,PCDHGC,LTBP4,SYNPO和PDEA;其中与干性和疾病进展显著正相关(卡方检验,P<0.001)且相关系数大于0的138个基因定义为关键干性基因。根据这些关键干性基因在NMIBC中的表达量基于曼哈顿距离算法和Ward.D2聚类方法可将其分为干性高组和干性低组两种亚型,在不同的两种亚型中,关键干性基因表达在组内的均一性较好;随访时间均大于60月的生存分析结果显示干性高组患者疾病进展较干性低组疾病进展更快(卡方检验,P<0.001)。在本课题中,基于临床病理和分子分型信息发现组织干性的高低与患者年龄(卡方检验,P=0.103)和性别(卡方检验,P=0.333)无关;小于3cm的肿瘤主要出现在干性低的组别中(卡方检验,P<0.001);Ta期肿瘤组织主要聚集在干性低的亚型,T2-4期则主要聚集在干性高的组织(卡方检验,P<0.001);低级别的肿瘤组织更易出现在干性低组,而高级别正好与之相反(卡方检验,P<0.001);乳头状的生长方式在干性低组常见,实体型的则好发于干性高组(卡方检验,P<0.001);卡介苗治疗对干性不同的两组治疗效果无差异(卡方检验,P=0.333)。EORTC危险分数为1的样本主要聚集在干性高组,分数为0的则主要聚集在干性低组(P<0.001);Lund分型中基因不稳定型与干性高组在分子分型方面具有很高的重合度,而基底样A型与未筛选型则主要聚集在干性低组中(卡方检验,P<0.001);12基因特征中,高危组主要与干性高组重合(76.51%),而干性低组中高危组仅占37.00%,低危组占63%(卡方检验,P<0.001);具有CIS特征的主要汇集在干性高组,而非CIS正好与之相反(卡方检验,P<0.001);CLASS分型中,管腔型原位癌样主要分布在干性高组,管腔样和早期基底样则主要聚集在干性底组(卡方检验,P<0.001)。依据于Reactome数据库发现关键干性基因集中富集在 cell cycle 通路上,其次为 cell cycle,Mitotic 通路、Mitotic Prometaphase 通路和Resolution of Sister Chromatid Cohesion通路。根据关键干性基因在染色体上起止位置-2500bps和+1000bps范围区域寻找其调控因子,最终获得205个调控关键干性基因的转录因子;调控120个以上关键干性基因的转录因子为CEBPG、HOXB2、FLI1、MEIS1、FOXJ3、FOXJ2、ETV2、MYBL1、FOXO1、ETV5、ERF、GCM1和TEAD4;其中,干性相关性大于0.3的基因为CEBPG、HOXB2、FLI1和MEIS1。这四个转录因子共同调控的关键干性基因数目达111个,比率高达84.09%。随后,将这四个调控因子与被其调控的111个基因表达相关性进行比较后发现HOXB2与被其调控的基因相关系数最高。结论:利用机器学习方法可以对NMIBC组织中表达的基因干性进行量化,发现干性高的患者疾病更容易进展并且生存期更短,临床病理发现干性高组的分期更高、分级更高;EORTC危险分数高的样本大多聚集在干性高组,基因组不稳定类型出现的频率相比于干性低组高;根据12基因特征分型的高危组主要与干性高组重合,这些分子分型结果与组织干性分组具有很高的重合度,提示组织干性评分可能是一种新的组织去分化特征的标志物。关键干性基因通路富集分析发现主要汇集在cell cycle通路,细胞分裂过程中基因组不稳定可能是导致组织去分化的原因;84.09%的关键干性基因受HOXB2调控,故推测HOXB2可能膀胱癌干性维持和组织干性发生发展的关键调控因子。该研究结果为膀胱癌进展发现了新的潜在干性生物标志物,但仍需后续的实验对相关结论进行验证。图14表1参81