论文部分内容阅读
义原是人类语言中不可再分的最小语义单元,在自然语言处理领域的多种任务中起到重要作用。知网HowNet是一个典型的义原知识库,是由语言学家历时多年经过手工标注构建起来的,已得到广泛应用。随着社会发展,语言中的词汇和语义不断发生变化,靠人工标注更新义原知识库的的方法费时费力,且存在标注一致性的问题。义原的自动预测成为知识库建设的一项重要任务,而当前的义原预测技术仍然存在很多问题。影响义原预测效果的因素包括所使用的模型是否合适,是否引入更多的信息或知识,若引入知识则能否充分提取特征,由特征到义原的映射过程是否合理,以及能否解决多义词和低频词等疑难问题。现有研究方法对上述问题没能很好的解决。针对义原自动预测面临的挑战,本文提出了两种基于深度学习技术的利用词典定义进行义原预测的解决方案。一是利用基于注意力机制的编码器实现义原预测,二是提出基于局部语义相关性的义原预测方法,实验证明本文提出的方法在义原预测任务中能够取得目前最好的效果。同时,本文还通过反向词典这样一个义原预测的下游任务来进一步验证所提出的方法的实用性和有效性。主要工作和贡献如下:(1)利用基于注意力机制的编码器实现义原预测。现有的义原预测方法大都未结合丰富的知识信息,或者对知识的利用很不充分。词典定义是一种标准的语义描述,而现有利用定义进行义原预测的方法存在很多不足,为了解决定义信息挖掘的充分性问题,本文结合注意力机制改进了编码器,并通过融合多种信息进一步优化义原预测模型,有效提升了义原预测效果。(2)基于局部语义相关性的义原预测方法研究。利用编码器的方法挖掘定义信息,提取的语义特征是一个有限维度的向量,所包含的信息量十分有限。通过研究定义中的词与目标词和义原之间的关系,发现具有局部语义相关的性质,基于该性质提出了一种新的义原预测方法。该方法不但有效提升义原预测效果,对于低频词和多义词等预测难点也能很好的解决。(3)利用义原预测方法实现并改进反向词典系统。本文提出的两种义原预测方法可有效应用于反向词典任务,并通过引入义原等知识进一步改善效果。作为首个汉语界的反向词典系统也具有一定的社会意义。通过实验证明了本文提出的方法在义原预测任务中具有明显的提升效果和良好的鲁棒性,并通过反向词典任务进一步体现了本研究的实用价值,同时也证明了义原知识的重要作用。开展义原自动预测研究在人工智能领域具有广泛的应用价值和较深远的现实意义。