论文部分内容阅读
生物医学文献的数量正爆炸式地增长。如此海量的数据给研究者们带来丰富的信息,但研究者们通宵达旦阅读文献也不及文献的增长速度。因此自动从生物医学文献中提取和组织信息的系统变得越来越重要。抽取的这些信息能帮助研究者处理信息、系统地阐述生物模型、提出假设。随着研究的发展,从生物医学文献中自动抽取各种关系模型,成为文本挖掘领域中的重要方向。论文中我们对蛋白质关系抽取、通路信息抽取、利用文本构建药物基因组学语义网络三个方面进行研究。从文本中自动抽取蛋白质间的相互作用关系是文本挖掘领域中的重要方向。监督学习利用标注数据训练预测,通常能取得较好的性能;半监督学习可以利用海量的未标注数据。为了充分发挥这两种方法的优势,本文提出一种将监督学习和半监督学习融合的方法,用于自动从文献中抽取蛋白质关系。在AImed语料上取得了较好的效果。从海量的已发表文献中自动提取通路信息,能帮助我们理解疾病和发现新药。在本文中,我们提出了一个两阶段的方法从Medline摘要中抽取跟疾病相关的通路信息。在第一阶段,使用的基于规则的方法主要分为以下四步:预处理、种子识别、句法分析、通路信息抽取。在第二阶段中,使用蛋白质关系抽取系统进行关系抽取作为补充,来提高召回率。实验结果表明了该方法的有效性。我们从Medline摘要中抽取基因-药物、基因-疾病两种关系,以此来构建了药物基因组学语义网络,并设计实现了一个药物基因组学语义网络可视化系统。该系统可以展示语义网络,同时可以对网络进行可视化编辑。通过对蛋白质关系抽取、通路信息抽取、利用文本构建药物基因组学语义网络三个方向的研究,我们发现生物信息学丰富的语义知识和句法信息能对疾病的治疗及新药的发现提供了一定程度的帮助,对文本挖掘技术的进步提供了有力的支持。