论文部分内容阅读
事件作为人类认知世界的基础,已得到越来越多研究者的关注。知识图谱的发展为计算机形式化描述现实世界事物提供了载体,构建基于事件的知识图谱成为研究者关注的方向之一。互联网的发展在改变人类生活方式的同时,也带来了巨大数据规模,给以互联网为数据来源的事件知识图谱构建带来巨大性能挑战。本文从提升事件知识图谱构建效率出发,分析了图谱构建各阶段影响性能的若干关键技术,提出了基于Spark的并行化解决方案,具体研究包括以下几方面:1.在图谱构建文本特征提取阶段,针对大规模数据对文本特征提取的挑战,从两方面开展了研究工作。(1)为提升大规模中文文本分词速度,研究并提出基于Spark的并行中文分词方法。(2)以并行中文分词结果为输入,在Spark MLlib库Word2Vec词向量训练实现方案上,研究并提出了提升Word2Vec训练性能的优化方案—LB-Word2Vec。通过一系列对比实验验证了以上两点研究都取得了不错效果,其中在有6个计算节点的集群下,并行中文分词比单机分词速度提升约3倍,LB-Word2Vec训练出的词向量模型在保证准确率基本不变的前提下,比未优化的并行Word2Vec速度提升近3倍,比单机Word2Vec速度提升近5倍。2.在图谱构建文本过滤阶段,针对时间复杂度为O(n~2)的文本过滤算法在日益增长的数据规模下性能出现瓶颈问题,基于Spark实现了文本过滤算法的并行化且对实现方案进行了性能调优。经过一系列对比实验验证了并行文本过滤算法虽未降低算法的时间复杂度但性能表现更优越,在计算节点为2~6个的集群中,并行文本过滤算法比单机方法提升了2~5倍的速度。3.在图谱构建事件抽取阶段,针对大规模数据对事件抽取效率的挑战,基于TensorFlowOnSpark改进了现有事件抽取算法并在此基础上实现了一个定制的并行事件抽取平台。实验结果表明,虽然并行事件抽取算法在模型训练阶段因数据输入方式的限制速度提升不明显,但模型准确率与单机基本一致,而在基于训练出的模型的事件抽取阶段,提出的数据分发机制在拥有2个计算节点的集群下,事件抽取速度比单机提升2倍左右。4.基于Play2框架设计并实现了一个并行计算平台。该平台主要实现可视化提交与管理Spark作业、对外提供并行计算服务等功能,避免了命令行提交作业的复杂性,方便了作业在Web端的管理及外部环境对并行计算服务的访问。