RNA互作文本挖掘工具开发及应用研究

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:xiaoyao2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
RNA互作组学(RNA interactomics)是RNA组学(RNomics)研究的重要组成。其中,(1)RNA互作数据的收集和归纳以及(2)RNA相关互作网络的分析与挖掘是RNA互作组学研究的重要内容。目前生物学家已经开发了各种RNA互作相关的高通量实验技术、预测算法以及数据库,为RNA互作组学中数据收集和归纳研究提供了有力支撑。然而,还有大量生物实验发现的RNA互作数据分散在海量的文献中,缺乏系统的收集和归纳,这是RNA互作组学领域亟待解决的问题之一。开发针对相关数据的文本挖掘算法,是解决这个问题的重要途径。同时,RNA互作网络通常包含了海量的信息,这种级别的数据往往是传统生物学实验和技术难以应对的。因此,从数学和统计角度分析RNA互作网络,根据分析结果指导实验研究将成为RNA互作组学研究的新方法。本论文针对散在于文献中的海量RNA互作数据,开发了RIscoper(RNA Interactome Scoper)文本挖掘系统,可提取收集海量文献中各种RNA-RNA互作(RNA-RNA interaction,RRI)数据。然后,针对基于RIscoper软件辅助收集的RRI数据形成的RNA互作网络,选择对其中病毒-宿主间非编码RNA(non-coding RNA,ncRNA)介导的串扰(crosstalk)网络进行深入挖掘,尝试揭示病毒感染过程中潜在的分子机制。本论文的主要研究内容如下:1.基于N-元语义模型(N-gram model)设计和开发RIscoper算法流程及软件。算法流程第一步为语句标准化(sentence standardization),包括语句分割和词形还原等内容;第二步是对语句中的RNA名称进行命名实体识别(named entity recognition);第三步是语句打分(sentence scoring),用分值评价语句是否包含RRI数据信息,具体包括利用N-元语义模型计算语句的最大似然概率、利用柯蒂斯平滑算法(Katz smoothing algorithm)对概率矩阵进行平滑处理以及利用几何平均值对语句长度进行标准化处理。2.构建了一个包括13,377条RRI阳性语句的语料库作为RIscoper标准训练集。该语料库内所有语句均是通过人工阅读大量的专业文献而获取的(来源于超过5,000篇专业期刊文献),覆盖多种RNA互作信息。3.使用10-折交叉验证方法评价软件的性能。结果证明RIscoper在RRI数据(精确度:90.4%,召回率93.9%)和蛋白质-蛋白质互作(protein-protein interaction,PPI)数据(精确度:90.3%,召回率94.1%)提取上都有很高的性能。此外,案例研究的结果发现RIscoper可提取到绝大部分有效的RRI信息,这些结果表明RIscoper软件具有良好的准确性和实用性。4.收集整理多个数据库和平台的病毒-宿主(人类)间以及人类的PPI以及ncRNA-蛋白质互作(ncRNA-protein interaction,NPI)网络数据(其中NPI网络数据来自于RIscoper软件的辅助),分析病毒ncRNA靶向的宿主蛋白质以及ncRNA在PPI以及NPI网络中的中心性(度与介数),结果发现病毒ncRNA靶向的宿主蛋白质和ncRNA在网络中倾向于是中枢节点(hub node)以及瓶颈节点(bottleneck node)(靶向蛋白质:Wilcoxon秩和检验,度:P=1.99E-11,介数:P=9.32E-09;靶向ncRNA:Wilcoxon秩和检验,度:P<2.2E-16,介数:P<2.2E-16)。提示病毒在感染过程中倾向于攻击宿主分子调控网络的重要节点。例如,EBV原始病原体miR-BHRF1-1直接靶向人类PPI网络中枢和瓶颈蛋白质P53,控制EBV晚期裂解复制;ebv-miR-BHRF1-2直接靶向BCL2,抑制细胞早期凋亡。5.对病毒ncRNA和蛋白质共同靶向的人类蛋白质的中心性和功能进行分析,发现其度和介数显著高于其他靶向蛋白质,且显著参与到细胞死亡相关生物学功能中,尤其是参与到自噬相关的调控网络。6.定义和筛选病毒-人类间功能同源性ncRNA对,通过对ncRNA共同靶向的基因数量进行显著性分析,得到820条潜在的病毒-人类间功能同源性ncRNA对(P<0.01),提示部分病毒ncRNA和人类ncRNA倾向于调节类似的靶基因集合,存在功能上的同源性。7.基于病毒-人类间ncRNA串扰网络,利用重启随机游走算法对病毒进行聚类分析,结果发现了6个不同的病毒簇。功能富集分析发现不同的病毒簇具有不同的功能倾向而同一病毒簇的功能趋向于相同。这提示不同病毒簇间存在着不同的感染和发病机制而同一病毒簇可能存在机制上的同源性。综上所述,本研究围绕着RNA互作组学目前的需求和方向,基于自然语言处理开发了挖掘文献中RRI信息的工具RIscoper,为未来RNA组学研究提供数据积累和技术支撑。然后,针对RIscoper辅助挖掘得到的病毒-宿主间ncRNA介导的串扰网络进行深入挖掘和研究,揭示病毒感染的一些潜在的分子机制,为全面解析病毒感染机制以及开发相应治疗方案提供有效的信息和线索。
其他文献
馆配行业多年来稳中有升,已从原来的附属地位一跃进入业内重点领域,成为出版发行业的重要销售渠道。馆配行业自身存在许多有待解决的问题,如以现采为主导的采购模式使得产业
目的分析肺结核抗体检测联合C反应蛋白(CRP)检测判断HIV合并肺结核杆菌感染的应用价值。方法采用试剂盒对46例HIV合并肺结核杆菌感染患者和40例HIV感染患者进行结合分枝杆菌
<正> 1.概说 70年代初,伴随着世界范围的能源危机,台湾也受到了极大的影响。杂志出版业也未能幸免。1971年台湾有杂志社1534家,到1975年则减少到1316家,为70年代的最低点。70
目的探讨急腹症的诊治体会。方法回顾性分析和总结在实际工作中所遇到的急腹症患者的临床资料。结果急腹症发病急、进展快、变化多、病情重、涉及面广、容易误诊造成不良医疗
目的探讨人工股骨头置换术方法治疗高龄股骨粗隆间骨折患者的疗效。方法对2006年8月~2010年10月收治的高龄(75岁以上)股骨粗隆间骨折74例患者进行手术治疗。全部采用人工股骨
背景:脓毒症是指由感染或高度可疑感染因素引起的全身炎症反应综合征(systemic inflammatory response syndrome,SRIS),是创伤、手术后的常见并发症,以及重症监护病房内非心
针对砂土地土壤肥力瘠薄 ,漏水漏肥等问题 ,通过盆栽试验 ,研究了不同膨润土施用量对土壤水分和玉米植株生育性状的影响。研究结果表明 ,膨润土可以提高土壤的含水量 ,从而达
从适期播种、育苗、品种选择、整地、施基肥、定植、田间管理、病虫害防治等方面,介绍宁德市沿海平原葡萄园套种秋苦瓜栽培技术。
信息爆炸的时代,手机对于自控力较弱的中学生来说,有着强大的诱惑力。课堂上经常可见玩手机的同学,手机管理对于中职学校的班主任来说一直是一项艰难的工作,虽然绞尽脑汁但是
<正>社区健康教育是指在特定的区域内,以患者及其家属为对象,通过社区护士有计划、有组织、有目的地对患者及社区居民进行健康教育,从而使患者增进健康知识、改变不良生活方