论文部分内容阅读
RNA互作组学(RNA interactomics)是RNA组学(RNomics)研究的重要组成。其中,(1)RNA互作数据的收集和归纳以及(2)RNA相关互作网络的分析与挖掘是RNA互作组学研究的重要内容。目前生物学家已经开发了各种RNA互作相关的高通量实验技术、预测算法以及数据库,为RNA互作组学中数据收集和归纳研究提供了有力支撑。然而,还有大量生物实验发现的RNA互作数据分散在海量的文献中,缺乏系统的收集和归纳,这是RNA互作组学领域亟待解决的问题之一。开发针对相关数据的文本挖掘算法,是解决这个问题的重要途径。同时,RNA互作网络通常包含了海量的信息,这种级别的数据往往是传统生物学实验和技术难以应对的。因此,从数学和统计角度分析RNA互作网络,根据分析结果指导实验研究将成为RNA互作组学研究的新方法。本论文针对散在于文献中的海量RNA互作数据,开发了RIscoper(RNA Interactome Scoper)文本挖掘系统,可提取收集海量文献中各种RNA-RNA互作(RNA-RNA interaction,RRI)数据。然后,针对基于RIscoper软件辅助收集的RRI数据形成的RNA互作网络,选择对其中病毒-宿主间非编码RNA(non-coding RNA,ncRNA)介导的串扰(crosstalk)网络进行深入挖掘,尝试揭示病毒感染过程中潜在的分子机制。本论文的主要研究内容如下:1.基于N-元语义模型(N-gram model)设计和开发RIscoper算法流程及软件。算法流程第一步为语句标准化(sentence standardization),包括语句分割和词形还原等内容;第二步是对语句中的RNA名称进行命名实体识别(named entity recognition);第三步是语句打分(sentence scoring),用分值评价语句是否包含RRI数据信息,具体包括利用N-元语义模型计算语句的最大似然概率、利用柯蒂斯平滑算法(Katz smoothing algorithm)对概率矩阵进行平滑处理以及利用几何平均值对语句长度进行标准化处理。2.构建了一个包括13,377条RRI阳性语句的语料库作为RIscoper标准训练集。该语料库内所有语句均是通过人工阅读大量的专业文献而获取的(来源于超过5,000篇专业期刊文献),覆盖多种RNA互作信息。3.使用10-折交叉验证方法评价软件的性能。结果证明RIscoper在RRI数据(精确度:90.4%,召回率93.9%)和蛋白质-蛋白质互作(protein-protein interaction,PPI)数据(精确度:90.3%,召回率94.1%)提取上都有很高的性能。此外,案例研究的结果发现RIscoper可提取到绝大部分有效的RRI信息,这些结果表明RIscoper软件具有良好的准确性和实用性。4.收集整理多个数据库和平台的病毒-宿主(人类)间以及人类的PPI以及ncRNA-蛋白质互作(ncRNA-protein interaction,NPI)网络数据(其中NPI网络数据来自于RIscoper软件的辅助),分析病毒ncRNA靶向的宿主蛋白质以及ncRNA在PPI以及NPI网络中的中心性(度与介数),结果发现病毒ncRNA靶向的宿主蛋白质和ncRNA在网络中倾向于是中枢节点(hub node)以及瓶颈节点(bottleneck node)(靶向蛋白质:Wilcoxon秩和检验,度:P=1.99E-11,介数:P=9.32E-09;靶向ncRNA:Wilcoxon秩和检验,度:P<2.2E-16,介数:P<2.2E-16)。提示病毒在感染过程中倾向于攻击宿主分子调控网络的重要节点。例如,EBV原始病原体miR-BHRF1-1直接靶向人类PPI网络中枢和瓶颈蛋白质P53,控制EBV晚期裂解复制;ebv-miR-BHRF1-2直接靶向BCL2,抑制细胞早期凋亡。5.对病毒ncRNA和蛋白质共同靶向的人类蛋白质的中心性和功能进行分析,发现其度和介数显著高于其他靶向蛋白质,且显著参与到细胞死亡相关生物学功能中,尤其是参与到自噬相关的调控网络。6.定义和筛选病毒-人类间功能同源性ncRNA对,通过对ncRNA共同靶向的基因数量进行显著性分析,得到820条潜在的病毒-人类间功能同源性ncRNA对(P<0.01),提示部分病毒ncRNA和人类ncRNA倾向于调节类似的靶基因集合,存在功能上的同源性。7.基于病毒-人类间ncRNA串扰网络,利用重启随机游走算法对病毒进行聚类分析,结果发现了6个不同的病毒簇。功能富集分析发现不同的病毒簇具有不同的功能倾向而同一病毒簇的功能趋向于相同。这提示不同病毒簇间存在着不同的感染和发病机制而同一病毒簇可能存在机制上的同源性。综上所述,本研究围绕着RNA互作组学目前的需求和方向,基于自然语言处理开发了挖掘文献中RRI信息的工具RIscoper,为未来RNA组学研究提供数据积累和技术支撑。然后,针对RIscoper辅助挖掘得到的病毒-宿主间ncRNA介导的串扰网络进行深入挖掘和研究,揭示病毒感染的一些潜在的分子机制,为全面解析病毒感染机制以及开发相应治疗方案提供有效的信息和线索。