【摘 要】
:
近年来,随着生物医学技术的快速发展,蛋白质实体识别和蛋白质关系抽取已经成为生物医学领域的重要课题,生物信息抽取的相关文献呈现爆炸式增长。对于研究者来说,很难快速从海
论文部分内容阅读
近年来,随着生物医学技术的快速发展,蛋白质实体识别和蛋白质关系抽取已经成为生物医学领域的重要课题,生物信息抽取的相关文献呈现爆炸式增长。对于研究者来说,很难快速从海量文献中获取这些蛋白质相关信息。生物医学领域蛋白质本体自动化构建的目的是从文献中识别蛋白质实体、以及挖掘蛋白质之间的交互关系,帮助相关研究者提高蛋白质研究的效率。本文主要研究生物医学领域本体的自动构建方法,具体包括生物医学领域蛋白质实体识别和蛋白质关系抽取两部分内容。蛋白质实体识别是指从自由文本中识别出蛋白质,蛋白质关系抽取是指挖掘蛋白质之间的相互作用关系。针对蛋白质实体识别任务,本文在丰富的基本特征集基础上,提出了词组模型特征和元音缺失特征,设计和实现了基于朴素贝叶斯分类器的蛋白质实体识别研究方法。针对蛋白质关系抽取任务,本文在实现词特征、词性特征、逻辑特征的基础上,提出了语义角色特征和句法分析特征,设计和实现了基于支持向量机的多特征融合的蛋白质关系抽取研究方法。针对蛋白质实体识别的研究,在GENIACorpus数据集上的实验结果表明,在常用特征集的基础上增加词组模型特征集,可以有效提高蛋白质实体识别的准确率。针对蛋白质关系抽取的研究,在IEPACorpus数据集上的实验结果表明,在词特征、词性特征和逻辑特征的基础上,增加语义角色模型特征和句法分析模型特征后,基于这五种特征融合的蛋白质关系抽取提取性能优于单独每种特征的识别性能,也优于基于词特征和词性特征与其他三种特征的任何组合所构成的特征集的识别性能。本文所提出的生物医学领域本体构建方法和所构建的本体有助于蛋白质的深入研究,提高研究的效率,蛋白质本体在生命科学研究、医药、农业等领域具有广阔的应用前景。
其他文献
武术项目在拉脱维亚共和国发展已有20余年,越来越受到拉脱维亚人民的欢迎。本人作为北京体育大学研习武术项目的留学生,肩负着为祖国的武术运动发展进行理论学术研究的责任。
随着人们对图像质量要求的提高,基于蒙特卡罗的真实感图像合成能够较好模拟大自然中较为复杂的现象如:高光、软阴影、焦散等,极大程度上满足了人们对特效画质的追求。基于蒙
Android应用自动化测试是应用质量保证的重要手段。针对目前Android应用自动化测试中传统自动化测试方法的自动化率和测试用例生成效率较低且应用异常发现能力较弱的问题,本
HEVC(High Efficient Vedio Coding)是最新的视频编码标准,其压缩性能较上一代视频编码标准H.264/AVC(Advanced Vedio Coding)提高了近一倍,如此高的压缩率必然会增加编码时
DOA估计是阵列信号处理的关键技术,在实际应用中,由于各种阵列误差难以避免,严重影响DOA估计的性能。通常使用的阵列校正过程非常繁琐,可以说阵列阵元误差的校正一直是困扰阵
当前我国金融体系中,银行居于绝对主导地位,间接融资比例较西方发达国家高20个百分点左右,成为我国经济杠杆率居高不下的主要原因。十九大提出:“打好防范化解重大金融风险的
彩色激光打印机由于其打印速度高、色彩再现性强,已经成为打印机发展的主流方向。彩色激光打印机涉及到的色图像处理技术在数字图像处理中得到了广泛的应用。与灰度图像相比,
室内电力线通信技术是通过配电网络中的导线来传输数据的一种有线通信方式。电力线通信使用的电力传输媒介具有分布广泛、便于获取等优点。然而,传统的电力线最初并不是为通
灰茶尺蠖(Ectropis grisescens)是我国茶园中一种主要的食叶类害虫,其对于茶树的生长以及茶叶产量的危害非常巨大,每年在我国各茶叶产区均有不同程度的危害。研制灰茶尺蠖生物防治高效生物农药,对提高茶叶品质具有重要意义。然而目前有关应用球孢白僵菌防治灰茶尺蠖的研究尚未见报道。本研究筛选出对灰茶尺蠖具有高致病力的球孢白僵菌菌株Bb493,并进一步研究了温度对白僵菌菌株Bb493萌发、产孢及
关于查询扩展(QE)的研究工作中,大多数研究工作假设文档中的词项是相互独立的。因此研究者对查询扩展模型里的反馈文档进行建模时,一般使用的是多项分布。本文认为,在查询扩