基于生物医学文献数据的命名实体识别并行算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:zlw12345678901188
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息爆炸的时代,随着电子文本的广泛应用,海量数据给人们快速有效地获取有用信息及相关知识带来了严峻的挑战,特别是对包含领域内大量成果和实验发现的文献记录的信息获取。文本挖掘技术作为此领域的研究热点之一,可以快速有效地在海量的文献数据中获取相关知识。它是一个与自然语言处理、信息检索、信息抽取、数据挖掘、计算语言学、机器翻译、组块分析等相关领域交叉的学科。作为文本挖掘技术的重要基础,命名实体识别旨在定位并分类文本中带有特殊意义的原子元素。  在生物医学领域,由于命名实体本身存在着特殊性和复杂性,基于生物医学文献的命名实体识别工作一直存在精度和效率的两难问题。目前采用机器学习策略和探索丰富特征集等方法已比较成熟,对生物医学命名实体识别的精度有着良好地提高,然而其效率问题却愈来愈突出,特别是在面对大规模文献数据集时,单机环境下模型训练过程和模型推断过程的计算时间呈非线性增长,生物医学命名实体识别耗时巨大。因此,为了促进相关文本挖掘技术的发展,研究如何提高其命名实体识别效率具有重要的理论意义和现实意义。它为该领域的科学家提供了高效的研究工具,让其专注于更高意义上的工作;同时,本研究对于其他领域的类似工作也有着一定程度上的指导作用。  本文通过对生物医学命名实体识别常用方法的总结和分析,针对条件随机场模型训练算法面对大规模数据传统单机处理性能低下的问题,本文提出了一种基于第二代 Hadoop平台的条件随机场模型训练并行优化算法:CRFs-L-MapReduce。CRFs-L-MapReduce并行优化了条件随机场训练算法的参数估计步骤,提高了基于条件随机场命名实体识别的训练速度。实验表明在基于大规模生物医学训练数据集下,CRFs-L-MapReduce比传统单机 CRFs训练算法具备更快的收敛速度,效率提高约4.4~7.4倍,并且 CRFs-L-MapReduce随着集群性能的提高其训练效率也随之提高,具备良好的扩展能力。  此外,通过对条件随机场模型推断算法执行流程进行深入分析,结合当前流行的大数据处理技术,提出了一种基于内存计算的条件随机场模型推断并行优化算法:CRFs-V-Spark。Spark平台得益于其在迭代计算和内存计算上的优势,可以自动调度复杂的计算任务,避免中间结果的磁盘读写和资源申请过程,非常适合大数据时代的数据挖掘和机器学习。CRFs-V-Spark不仅能够兼容第二代 Hadoop集群,而且还利用内存计算资源灵活高效地处理海量数据。实验表明,本文所提出的CRFs-V-Spark的识别时间远低于单机 CRFs推断算法,识别效率提高约5~9倍,并能随着内存条件的改善进一步提升自身性能。CRFs-V-Spark很好地实现了条件随机场推断算法的内存计算化与并行化,大大提高了数据处理的实时性能,生物医学命名实体识别的效率得到进一步提升。
其他文献
随着基于构件的软件开发技术的推广和深入发展,构件库已经在软件研究领域得到越来越多的关注。构件的查询是构件库的基本功能,利用聚类分析技术对构件进行聚类,可以实现构件
H.264是一种先进的、近年来流行的国际视频编码标准。国内外很多公司以及研究机构都在研究H.264编码算法在数字信号处理器(DSP,Digital Signal Processor)平台上的实时解决方
机群系统的迅速发展使其成为并行计算系统中令人瞩目的一族。机群系统的异构性、开放性和网络延迟特性给网络并行计算带来了新的挑战。其中,任务调度策略是影响机群系统性能
移动自组网(Mobile Ad-hoc NETworks,MANETs)是独立的网络自治系统,不依赖于任何预先架设的网络设施,是当前网络与通信领域研究的热点。然而,网络中节点的任意移动和网络拓扑
随着Internet和Web技术的广泛应用,越来越多的企业迫切需要高效地构建自己的Web应用系统。近年来,Sun公司的J2EE平台凭借Java语言的诸多特性和企业软件开发中的种种经验,成为
模型驱动架构(MDA)这种软件开发方法能够直接通过建立的模型生成可用的软件产品。它是包括一系列建模规范、变换规则和其他相关标准的体系结构。在MDA中,软件开发过程由模型
互联网的诞生和发展,深刻的改变了人们的生活,激发并促进了人类和社会的进化。互联网上资源为用户提供大量的信息,大大方便信息的获取和整合,但是这种传播的便捷性同时也大大
粒度计算的思想起源于上世纪70年代末,它是模仿人类思考问题的方式,正如张钹院士和张铃教授所说:“人类智能的一个公认的特点,就是人们能从极不相同的粒度上观察和分析同一问
传统的信息安全策略已经不能适应现在社会对安全的要求,可信技术的发展是计算安全发展的要求,也越来越受到广泛的重视。对于网络当中的结点的可信性进行评估就显得非常重要;如
油气管道是能源运输的大动脉,管道的安全运行对国家能源战略的实施,维护社会和谐稳定都具有十分重要的意义。目前国内尚无全天候、长距离、实时预警的管道监测技术。油气管道