论文部分内容阅读
在信息爆炸的时代,随着电子文本的广泛应用,海量数据给人们快速有效地获取有用信息及相关知识带来了严峻的挑战,特别是对包含领域内大量成果和实验发现的文献记录的信息获取。文本挖掘技术作为此领域的研究热点之一,可以快速有效地在海量的文献数据中获取相关知识。它是一个与自然语言处理、信息检索、信息抽取、数据挖掘、计算语言学、机器翻译、组块分析等相关领域交叉的学科。作为文本挖掘技术的重要基础,命名实体识别旨在定位并分类文本中带有特殊意义的原子元素。 在生物医学领域,由于命名实体本身存在着特殊性和复杂性,基于生物医学文献的命名实体识别工作一直存在精度和效率的两难问题。目前采用机器学习策略和探索丰富特征集等方法已比较成熟,对生物医学命名实体识别的精度有着良好地提高,然而其效率问题却愈来愈突出,特别是在面对大规模文献数据集时,单机环境下模型训练过程和模型推断过程的计算时间呈非线性增长,生物医学命名实体识别耗时巨大。因此,为了促进相关文本挖掘技术的发展,研究如何提高其命名实体识别效率具有重要的理论意义和现实意义。它为该领域的科学家提供了高效的研究工具,让其专注于更高意义上的工作;同时,本研究对于其他领域的类似工作也有着一定程度上的指导作用。 本文通过对生物医学命名实体识别常用方法的总结和分析,针对条件随机场模型训练算法面对大规模数据传统单机处理性能低下的问题,本文提出了一种基于第二代 Hadoop平台的条件随机场模型训练并行优化算法:CRFs-L-MapReduce。CRFs-L-MapReduce并行优化了条件随机场训练算法的参数估计步骤,提高了基于条件随机场命名实体识别的训练速度。实验表明在基于大规模生物医学训练数据集下,CRFs-L-MapReduce比传统单机 CRFs训练算法具备更快的收敛速度,效率提高约4.4~7.4倍,并且 CRFs-L-MapReduce随着集群性能的提高其训练效率也随之提高,具备良好的扩展能力。 此外,通过对条件随机场模型推断算法执行流程进行深入分析,结合当前流行的大数据处理技术,提出了一种基于内存计算的条件随机场模型推断并行优化算法:CRFs-V-Spark。Spark平台得益于其在迭代计算和内存计算上的优势,可以自动调度复杂的计算任务,避免中间结果的磁盘读写和资源申请过程,非常适合大数据时代的数据挖掘和机器学习。CRFs-V-Spark不仅能够兼容第二代 Hadoop集群,而且还利用内存计算资源灵活高效地处理海量数据。实验表明,本文所提出的CRFs-V-Spark的识别时间远低于单机 CRFs推断算法,识别效率提高约5~9倍,并能随着内存条件的改善进一步提升自身性能。CRFs-V-Spark很好地实现了条件随机场推断算法的内存计算化与并行化,大大提高了数据处理的实时性能,生物医学命名实体识别的效率得到进一步提升。