面向生物医学领域的信息抽取研究

被引量 : 0次 | 上传用户:john0620
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物医学文献的数量正爆炸式地增长。如此海量的数据给研究者们带来丰富的信息,但研究者们通宵达旦阅读文献也不及文献的增长速度。因此自动从生物医学文献中提取和组织信息的系统变得越来越重要。抽取的这些信息能帮助研究者处理信息、系统地阐述生物模型、提出假设。随着研究的发展,从生物医学文献中自动抽取各种关系模型,成为文本挖掘领域中的重要方向。论文中我们对蛋白质关系抽取、通路信息抽取、利用文本构建药物基因组学语义网络三个方面进行研究。从文本中自动抽取蛋白质间的相互作用关系是文本挖掘领域中的重要方向。监督学习利用标注数据训练预测,通常能取得较好的性能;半监督学习可以利用海量的未标注数据。为了充分发挥这两种方法的优势,本文提出一种将监督学习和半监督学习融合的方法,用于自动从文献中抽取蛋白质关系。在AImed语料上取得了较好的效果。从海量的已发表文献中自动提取通路信息,能帮助我们理解疾病和发现新药。在本文中,我们提出了一个两阶段的方法从Medline摘要中抽取跟疾病相关的通路信息。在第一阶段,使用的基于规则的方法主要分为以下四步:预处理、种子识别、句法分析、通路信息抽取。在第二阶段中,使用蛋白质关系抽取系统进行关系抽取作为补充,来提高召回率。实验结果表明了该方法的有效性。我们从Medline摘要中抽取基因-药物、基因-疾病两种关系,以此来构建了药物基因组学语义网络,并设计实现了一个药物基因组学语义网络可视化系统。该系统可以展示语义网络,同时可以对网络进行可视化编辑。通过对蛋白质关系抽取、通路信息抽取、利用文本构建药物基因组学语义网络三个方向的研究,我们发现生物信息学丰富的语义知识和句法信息能对疾病的治疗及新药的发现提供了一定程度的帮助,对文本挖掘技术的进步提供了有力的支持。
其他文献
教学是培养人的活动,而人的差异是客观存在的,也正是人的差异性使教学成为一项复杂而富有魅力的工程,使如何在班级教学中关照学生的差异成为一个古老而又常新的话题。差异教
论文首先从频率域Helmholtz方程出发,详细描述频率域正演过程和频率域混合激发采集正演过程。以“蘑菇状”模型为代表,通过频率域正演得到了频率切片以及转换到时间域的地震记
教学观摩活动的评价是开展课堂教学研究的重要手段,是一种学习反馈过程,更是一种教后反思提升的后效过程。那么,教学观摩活动到底该如何评价才能对教师的专业成长有利?现结合工作
和谐生态家园的诗意建构,是中国理想社会形态的表现形式。"大同社会"代表了儒家的人文绿色的生态社会理想;"至德之世"则代表了中国道家和谐的生态理想形态;"世外桃源"则上承
建筑作为一个有机的整体,细部是它不可或缺的一部分。细部的设计好坏,往往决定着整个建筑的质量。外部功能性细部作为细部设计的重要组成部分,对它的设计要求也不再仅仅满足
经外周静脉穿刺置入中心静脉导管(peripherally inserted central catheter,PICC)因其具有留置时间长、并发症少、使用安全方便等优点,近年来已被临床广泛用于肿瘤化疗、胃肠外
试验研究了姜酚对6种食品相关的微生物的抑制活性。姜酚对试验目标微生物金黄色葡萄球菌、枯草芽孢杆菌、大肠杆菌、痢疾志贺氏菌、酿酒酵母和黑曲霉菌的最低抑制浓度在8.0到
随着各国对电动汽车产业的大力发展,随之而来的周边产品研发也逐渐受到关注。尤其如何有效的进行电动汽车电池充电,成为了人们热门研究的重要问题。近年来汽车电池不断更新换
近年来,我国用电负荷持续增长,风电装机规模逐年扩大,负荷峰谷差不断增大。在三北地区电网中,装机以火电为主,水电比例较小,电网调峰能力不足,从而导致了大量弃风的发生。调