论文部分内容阅读
恶性肿瘤是危害人类健康的重大疾病之一。根据世界卫生组织国际癌症研究署(International Agency for Research on Cancer,IARC)2012 年的估计,每年全球新发恶性肿瘤1400余万,约800万人死于恶性肿瘤。在我国,自2010年来恶性肿瘤已经超过心脑血管疾病成为第一大死因,成为中国最主要的公共卫生问题,其中肺癌居肿瘤死亡率首位。由于我国人口基数巨大(13.7亿),肿瘤病例的绝对数在全世界肿瘤病例中占相当大的比例(约占全球新发病例的22%,死亡病例的27%),不仅对我国人民健康和生活造成了严重威胁,同时也给社会带来了沉重的负担。在这样的流行病学背景下,揭示恶性肿瘤的发病特征和发生机制,寻求控制肿瘤发生发展的方法是当前医学科研工作者面临的重大需求。近百年来的研究总结了恶性肿瘤的典型特征,包括:持续的增殖信号、对于抗生长调控不敏感、抵抗细胞死亡、无限制的复制能力、持续的血管生成、组织侵袭和转移、免疫监视的逃避以及细胞能量的异常。而肿瘤基因组的不稳定和随之而来的各类变异的产生则是促使癌细胞能够直接获得多种核心特征的重要因素。近年来,随着DNA测序技术的不断成熟和发展,研究者在肿瘤基因组上发现了大量的体细胞变异(突变、拷贝数异常、基因融合等),其中绝大多数都不具有促癌作用,只有少数变异可以为癌症细胞带来进化上的优势,使其获得某种或某几种标志性恶性肿瘤的特征,从而直接促进癌症的发生发展。这类驱动变异的明确催生了肿瘤驱动基因理论,在该理论体系中,突变是公认的恶性肿瘤最主要的驱动因素。然而目前对驱动基因的研究仍然面临诸多问题和挑战,其中一个很关键的问题是:已知促癌基因的驱动突变发生频率往往较低,而已知抑癌基因的驱动突变尽管发生率较高,但是其下游激活的促癌基因往往非常复杂,因此有较多的恶性肿瘤患者尚未能找到明确的驱动突变。近年来的研究显示,癌症细胞中除基因组层面的改变外,也存在大量的表观遗传学的改变,因此有研究者提出了假设:存在一类受到表观遗传学激活的基因(表观驱动基因)在恶性肿瘤组织中表现出异常的表达,从而可以为癌症细胞提供进化优势,从而驱动恶性肿瘤的发生和进展。人们推测此类基因的异常表达变异可能是已知驱动变异理论的重要补充。然而尚没有针对此类变异的系统研究,我们对此类变异知之甚少,这样在癌症的驱动理论中留下了空白。在另一些类比研究中,研究者们注意到恶性肿瘤的一些典型特性在精子发生过程中同样存在对应特性:例如癌细胞的无限增殖能力对应精原细胞的持续优势分裂能力;癌细胞的非整倍体产生对应精母细胞减数分裂中的倍体变化;癌细胞的转移对应生精细胞的迁移等。精子发生的过程高效而有序,却与高度失控的细胞癌变过程存在诸多相似性。基于这些相似之处,一些学者提出:在一些已知的癌基因和抑癌基因不存在明确突变的情况下,一些本应沉默的生殖细胞相关基因的重新激活,也可以驱动癌症的发生(配子重演论)。与此同时,一类只在生殖细胞、胚胎滋养层和癌症组织中表达的蛋白被发现,早期发现的这类蛋白由于具有免疫原性,因为被统称为癌睾丸抗原(Cancer/testisantigens,CT抗原),编码此类抗原的基因被称为癌睾丸基因(Cancer/testisgenes,CT基因)。越来越多的证据显示,这类睾丸特异表达的蛋白可能就是配子重演论的物质基础,在细胞癌变和转移的过程中发挥重要功能。不仅如此,此类基因在恶性肿瘤中的异常表达特征符合表观驱动基因的定义,是恶性肿瘤表观驱动基因的重要候选。因此,以精子发生和癌症发生的相似性为切入点,系统的研究CT基因,有助于阐明恶性肿瘤的发生发展机制,完善肿瘤驱动基因理论,为恶性肿瘤的预防和诊断提供线索,为恶性肿瘤的个体化治疗提供新的治疗靶点。本研究基于以上假设,利用大样本量的人群数据和多组学数据,全面系统的进行了 CT基因的筛选,并且结合功能实验,探讨了 CT基因的驱动作用和激活方式。第一部分癌睾丸基因的系统筛选由于血睾屏障的存在,睾丸具有免疫豁免的特征,一些在睾丸中特异表达的蛋白存在免疫原性。因此,早期CT基因的发现主要来源于肿瘤抗原的研究,多采用基于抗原抗体反应的实验方法,受到较多实验条件的限制。随后,研究者逐渐发现此类具有免疫原性的基因存在特殊的表达特征(只在肿瘤、睾丸组织里面表达),于是开始利用该表达特征,基于高通量平台,进行CT基因的筛选。至2014年底,共有243个CT基因被大型CT基因公共数据库收录。尽管如此,目前CT基因的筛选仍然面临较多的问题:基于基因芯片的高通量筛选存在灵敏度低、可重复性差、覆盖度有限的问题;用于评价表达特征的正常组织和肿瘤组织存在样本量小、代表性差的问题。随着近十年来二代测序技术的高速发展,RNA测序技术应用越来越广泛,成功弥补了基因芯片的诸多技术缺陷。而基因型-组织表达(Genotype-Tissue Expression,GTEx)计划和癌症和肿瘤基因图谱计划(The Cancer Genome Atlas,TCGA)均利用该技术分别完成了大量正常组织和肿瘤组织的转录组层面的表达水平检测,为CT基因的系统筛选提供了数据支持。本研究的第一部分从人群转录组学数据出发,基于GTEx计划中175个个体24种不同的正常组织的RNA测序数据,采用特异性评分的方法将所有50,016个基因依据睾丸优势表达证据的强弱进行了分类,进行了睾丸优势表达基因的筛选,并且结合多组学数据采用富集分析的方法探讨了这些基因在精子发生过程中可能的激活方式;随后我们又结合TCGA计划中19种不同的肿瘤6,638例患者的肿瘤组织RNA测序数据,依据CT基因的定义进行了 CT基因的筛选;综合考虑CT基因在肿瘤组织中的表达特征,我们在肿瘤患者中以异常高表达的概念定义基因表达的激活,并且将筛选出的异常高表达CT蛋白作为表观驱动基因的候选;最后,我们结合TCGA计划突变、甲基化以及本研究肺腺癌RNA测序的数据,探讨了这些异常高表达的CT蛋白在肿瘤中的激活机制。依据大样本量正常组织的数据,我们共发现了 8,565个基因在GTEx计划的样本中具有睾丸优势表达特征的证据,其中1,336个编码基因在多个数据库中表达特征一致;此外有5,043个非编码基因也存在睾丸优势表达。Fisher精确概率法进行富集分析显示具有编码能力的睾丸优势表达基因上游1Kb的范围内存在显著的睾丸特异甲基化位点的富集(ERprmmoter=10.10,Ppromoter=6.42×10-253);而周围100Kb的范围内存在显著的睾丸优势表达非编码基因的富集(ERmethylation=5.37,Pmethylation=6.57×10-12),提示这两种调控元件可能参与这些基因在睾丸中激活的调控。在结合了 TCGA计划的肿瘤组织RNA测序结果后,我们共鉴定了 1,019个CT基因(其中876个为新发现的CT基因),并以此为基础,建立了迄今为止最完整的CT基因公共数据库;在243个已经报道的CT基因中,我们发现有17个基因并不具有CT基因的表达特征,修正了既往的数据库信息。采用异常高表达的定义方式后,我们共发现891个异常高表达的CT基因,其中有300个基因编码的蛋白表达也符合睾丸优势表达的特征,被定义为异常高表达CT蛋白用于后续分析。我们发现与非睾丸优势表达的基因相比,睾丸优势表达基因更倾向于在肿瘤中表现出异常高表达的特征(ER=2.05,P=2.21×10-22);这些异常高表达的CT蛋白的激活数量在各个肿瘤人群中存在差异,但是总体来看与驱动突变比例呈现负相关(Beta=-4.58,线性回归P=8.28×10-5),提示其异常激活可能是一类独立于驱动突变以外的驱动变异。在结合了 TCGA的甲基化数据后,我们发现异常高表达CT蛋白的激活数量与其启动子的平均甲基化水平呈现显著负相关(Beta=-30.97,线性回归P=9.68×10-97),提示这些基因在肿瘤中的激活可能也受到启动子甲基化水平的调控。随后我们使用本研究24例肺腺癌RNA测序的结果进行了异常表达特征的验证,发现了26个肺腺癌的异常高表达CT基因,包括19个已知CT基因和7个新CT基因。在7个新CT基因中,我们发现RHOXF1和VCX3B均在激活样本中呈现显著低的启动子甲基化水平,进一步证实CT基因的激活可能受到启动子甲基化水平的影响;在LIN28B和MEIOB附近均存在具有睾丸优势表达的非编码基因(LINC00577和LINC00254),在肺腺癌细胞系中高表达LINC00577可以显著提高LIN28B的表达,而高表达LINC00254则会显著降低MEIOB的表达,说明在肿瘤中,异常高表达的CT蛋白也可能受到附近同样具有睾丸优势表达特征的非编码RNA的调控。综上所述,本研究基于大样本量的转录组学数据,在全基因组范围内描绘了 CT基因在人群中的表达特征,建立了全新的CT基因数据库;并且以这些CT基因为基础,结合多组学数据,探讨了其异常激活作为一类新的驱动变异的可能性;从精子发生和肿瘤发生的共性出发,证实了异常高表达CT蛋白的激活可能受到启动子甲基化和附近具有睾丸优势表达特征的非编码RNA的调控,进一步说明此类基因异常激活可能是一类受到表观基因组学调控的驱动变异。本研究的结果为后续CT基因的研究奠定了理论基础,为肿瘤的驱动理论补充了新的内容,为研究肿瘤的发病机制探索了新的方向,同时也为肿瘤的靶向治疗策略提供了大量的候选靶点,具有重要的理论和临床意义。第二部分癌睾丸基因LIN28B在肺腺癌中的促癌作用研究在第一部分的筛选和验证中,我们发现了一个新CT基因LIN28B。该基因的同源基因LIN28A是一个经典多能性基因,其激活可以诱导细胞干性,从而可以在发育和肿瘤的发生过程中均发挥核心作用。LIN28B具有与LIN28A相似的功能序列,近年来,已经有多篇研究报道LIN28B可以通过调节let-7的表达,驱动成神经细胞瘤和肝癌的发生和转移。结合第一部分的研究结果,我们推测LIN28B很有可能是一个肺腺癌的驱动基因。因此,我们进行了一系列分析和实验证明LIN28B是一个肺腺癌的表观驱动基因。首先,我们利用体外(CCK8、EdU增殖、平板克隆、迁移和侵袭)和体内(裸鼠皮下荷瘤、裸鼠转移)功能实验证实了 IIN28B可以驱动肺腺癌的发生和转移,并且采用共表达通路分析、基因组不稳定评分、细胞周期实验和彗星实验初步探索了LIN28B在肺腺癌中发挥驱动作用的方式。随后我们从三个方面探讨了 LIN28B可能的激活机制:利用类似的体外和体内功能实验证实LIN28B附近的睾丸优势表达基因LINC00577也具有驱动肺腺癌发生和转移的能力;以TCGA计划的突变信息分类进行了差异表达分析,寻找LIN28B潜在的上游激活突变;利用此前文章发表的细胞系表达数据进行重拼接,再基于TCGA计划的甲基化数据探索LIN28B的不同转录本和其启动子甲基化的关联。我们发现在肺腺癌细胞系中高表达或者敲除LIN28B,可以显著改变细胞的增殖和迁移能力;裸鼠皮下荷瘤实验证实,注射了高表达LIN28B的肺腺癌细胞后,小鼠肿瘤生长显著强于注射对照肺腺癌细胞的小鼠,而裸鼠转移实验证实,注射了高表达LIN28B的肺腺癌细胞后,小鼠具有更差的生存率,并且在肝脏存在更多的转移结节。以上实验结果证实LIN28B可以驱动肺腺癌的发生和转移。与LIN28B共表达的基因显著富集于细胞周期、DNA复制和损伤修复、减数分裂与范科尼贫血等4个通路,细胞周期实验证实高表达LIN28B可以缩短细胞的G2-M期;彗星实验则证实高表达LIN28B的肺腺癌细胞在紫外灯照射下表现出显著增高的细胞损伤,未经过照射则与未处理的肺腺癌细胞不存在显著差异;基因组不稳定评分分析则显示LIN28B激活的样本中基因组不稳定更高(Wilcoxon秩和检验,P=3.98X 10-7)。以上结果提示LIN28B在肺腺癌中参与细胞周期调控和DNA损伤修复过程并影响基因组稳定性。在肺腺癌细胞系中高表达LINC00577可以显著地升高LIN28B的表达,同时体外和体内实验也证实LINC00577具有类似于LIN28B的促癌作用,提示LINC00577可能是LIN28B重要的调控因素之一。以TCGA计划的突变和表达数据进行差异表达分析后显示,LIN28B在SMARCA4功能突变的样本中表达显著增加,而生物信息学注释后发现,LIN28B上游存在SMARCA4的结合位点,在肺腺癌的18株细胞系中,具有SMARCA4功能缺失的细胞系中LIN28B上游表现出了组蛋白修饰的信号显著多于没有SMARCA4功能缺失的细胞系(Fisher精确概率法,P<0.05),该结果提示LIN28B可能是经典的染色质重塑抑癌基因SMARCA4的下游促癌基因。在肺腺癌细胞系的RNA测序数据中进行重新拼接后,我们发现了LIN28B未被注释的新转录本,在TCGA计划的数据中,各自转录本的表达均与其启动子的甲基化水平呈现负相关,提示LIN28B可能受到转录本特异的启动子甲基化水平的调控。以上LIN28B的三种激活形式均属于表观遗传学的范畴,因此LIN28B是一个典型的表观驱动基因。综上所述,本研究的第二部分对第一部分筛选出的CT基因LIN28B在肺腺癌中的促癌作用进行了细致的探讨,证实了 在肺腺癌中的驱动作用,找到了 的三种表观遗传学激活方式,并且探索了 LIN28B促癌的潜在机制。该部分的结果是第一部分结果的重要补充:为CT基因表观驱动理论提供了一个经典的范例:为肺腺癌的靶向治疗(尤其是具有SMARCA4抑制的肺腺癌患者)提供了一个理想靶点。