【摘 要】
:
近年来,随着人类基因组计划的实施以及功能基因组和蛋白质组研究的开展,生物信息学成为生物学和信息科学的研究热点。生物医学文献的数量迅速地增长,没有人能够阅读完如此众多的
论文部分内容阅读
近年来,随着人类基因组计划的实施以及功能基因组和蛋白质组研究的开展,生物信息学成为生物学和信息科学的研究热点。生物医学文献的数量迅速地增长,没有人能够阅读完如此众多的文献资料。因此,人们迫切需要从海量的生物医学文献中发现知识以指引生物学研究方向。以生物医学文献数据为分析对象,通过文献挖掘技术,可以提取和整合散布于文本数据中的知识,从而发现文献中隐含的新知识,为生物医学提供预测和指导作用。本文以Medline数据库中生物医学文本摘要为研究对象,开发并整合多种文献挖掘方法,试图发现蛋白质之间的潜在联系。
要从生物医学文献中发现隐藏的知识,首先要做的就是正确识别文献中出现的大量的生物术语,即“生物命名实体识别”。针对生物命名实体的特点,本文提出了一种基于条件随机域的生物命名实体识别方法。该方法首先采用了常规的生物命名实体识别技术,加入单词的构词特性,如数字、字母、前后缀等。然后针对相同的实体在文本中可能不止出现一次,每一次出现在不同位置的同一个实体包含了更多的上下文信息,相邻的单词之间存在依赖关系,以及当前词可能与距离较远的词之间存在依赖关系的问题,加入了单词的距离依赖特性,这大大提高了生物命名实体识别的性能。在JNLPBA测试集上进行了开放测试,识别结果的F值达到71%以上。
在进行生物命名实体识别以后,本文采用了两种方法对其中蛋白质的关系进行挖掘。通过共出现频率的统计方法,发现两个蛋白质实体对存在的潜在联系;通过关联规则方法,进行关联分析,发现两个或两个以上蛋白质实体之间可能存在的潜在联系。此外,还讨论了蛋白质关联实体可能表示的生物学意义。
构建了一个基于生物医学文献挖掘的蛋白质关系发现平台的原型系统。平台整合了文献挖掘中所需的第三方工具以及自行开发的工具,提供统一的访问接口和数据格式。该平台能够完成生物命名实体识别和蛋白质实体关联挖掘的知识发现任务,并且提供挖掘结果的可视化。
其他文献
自从德国科学家伦琴在1895年发明X射线以来,CT、MRI、B超、电子内窥镜等现代医学影像设备逐渐出现,这使得传统的医学诊断方式发生了革命性的变化。使用计算机对医学影像设备采
随着无线通信和移动计算技术的发展以及越来越高的宽带接入要求,WMN(Wireless Mesh Network)技术受到了广泛的关注。然而WMN在设计之初,考虑的主要目标是快速便捷的组网和网
人类社会是整个自然界的一个特殊部分,众多学者从不同学科对人类社会进行了许多开创性的研究,试图从不同的角度理解人类社会的发展、运动规律。为了研究如此大规模系统的特性和规律,一种新的理论研究方法——复杂网络理论方法,得到极大的发展和应用。自从发现复杂网络具有小世界效应和无标度特征之后,复杂网络逐渐受到了来自科学各个领域研究者们越来越多的关注,成为了近年来科学界的一个研究热点。复杂网络描述方法是建立在对
由于在最优化、信号处理、图像处理、代数方程求解、模式识别和联想记忆等方面的广泛应用,人工神经网络得到了蓬勃发展。神经网络的信息处理能力取决于其动力学行为。因此,神
随着Web应用的日益广泛和Web开发技术的不断发展,开发者迫切需要一种能够简化开发过程,降低开发难度,提高开发效率的框架。目前在Web开发平台中人们使用最多的是J2EE。但随着
在生物领域研究中,在巨量生物数据库中进行生物序列相似性查询是一项经常性的工作,在探索生物学知识和生命活动规律的过程中扮演着重要角色。然而在大型的长序列数据库中用朴
随着我国城市经济建设和社会的快速发展,电力、石油、铁路、邮政、交通等行业对巡检管理工作的要求越来越规范化、科学化、数据化。在安全防范系统方面尤其重要,因此采用先进的
彩铃业务是个性化多彩回铃音业务(CRBT,Coloring Ring Back Tone)的简称,是一项由被叫用户定制,为主叫用户提供一段悦耳的音乐或一句问候语来替代普通回铃音的业务。该业务有
IEEE 802.11无线局域网络的使用越来越广泛,其物理层数据传输速率随着技术的发展不断提高,而信道利用率却没有成比例增长。主要原因是传统的接入控制机制(MAC)引入了太多控制
支持向量机(SVM)是在统计学习理论基础上发展起来的一种新的模式识别方法,它是统计学习理论中的结构风险最小化思想在实际中的一种体现。SVM的基本思想是通过非线性变换将输